論文の概要: MV-TAP: Tracking Any Point in Multi-View Videos
- arxiv url: http://arxiv.org/abs/2512.02006v1
- Date: Mon, 01 Dec 2025 18:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.035847
- Title: MV-TAP: Tracking Any Point in Multi-View Videos
- Title(参考訳): MV-TAP:マルチビュービデオのあらゆる点を追跡する
- Authors: Jahyeok Koo, Inès Hyeonsu Kim, Mungyeom Kim, Junghyun Park, Seohyun Park, Jaeyeong Kim, Jung Yi, Seokju Cho, Seungryong Kim,
- Abstract要約: MV-TAPは、クロスビュー情報を活用することで、ダイナミックシーンのマルチビュービデオのポイントを追跡する、新しいポイントトラッカーである。
このタスクを支援するために,マルチビュートラッキングに適した大規模総合学習データセットと実世界評価セットを構築した。
- 参考スコア(独自算出の注目度): 34.91357343992975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view camera systems enable rich observations of complex real-world scenes, and understanding dynamic objects in multi-view settings has become central to various applications. In this work, we present MV-TAP, a novel point tracker that tracks points across multi-view videos of dynamic scenes by leveraging cross-view information. MV-TAP utilizes camera geometry and a cross-view attention mechanism to aggregate spatio-temporal information across views, enabling more complete and reliable trajectory estimation in multi-view videos. To support this task, we construct a large-scale synthetic training dataset and real-world evaluation sets tailored for multi-view tracking. Extensive experiments demonstrate that MV-TAP outperforms existing point-tracking methods on challenging benchmarks, establishing an effective baseline for advancing research in multi-view point tracking.
- Abstract(参考訳): マルチビューカメラシステムは複雑な現実世界のシーンを多面的に観察し、マルチビュー設定における動的オブジェクトの理解が様々なアプリケーションの中心となっている。
本研究では,動的シーンの多視点映像を横断的に追跡する新しいポイントトラッカーであるMV-TAPを提案する。
MV-TAPは、カメラ幾何学とクロスビューアテンション機構を利用して、ビュー間の時空間情報を集約し、マルチビュービデオにおけるより完全で信頼性の高い軌道推定を可能にする。
このタスクを支援するために,マルチビュートラッキングに適した大規模総合学習データセットと実世界評価セットを構築した。
大規模な実験により,MV-TAPは既存の点追跡手法よりも高い性能を示し,多視点点追跡の研究を進めるための効果的な基準線を確立した。
関連論文リスト
- A Comprehensive Survey on Video Scene Parsing:Advances, Challenges, and Prospects [53.15503034595476]
Video Scene Parsing (VSP) はコンピュータビジョンの基盤として登場した。
VSPはコンピュータビジョンの基盤として現れ、ダイナミックシーンにおける多様な視覚的実体の同時セグメンテーション、認識、追跡を容易にする。
論文 参考訳(メタデータ) (2025-06-16T14:39:03Z) - FusionTrack: End-to-End Multi-Object Tracking in Arbitrary Multi-View Environment [7.5152380894919055]
本稿では、追跡と再識別を合理的に統合し、堅牢な軌跡関連のための多視点情報を活用するエンド・ツー・エンド・フレームワークを提案する。
MDMOTと他のベンチマークデータセットの実験は、FusionTrackがシングルビューとマルチビュートラッキングの両方で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-24T14:51:19Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - MCTR: Multi Camera Tracking Transformer [45.66952089591361]
Multi-Camera Tracking tRansformer (MCTR)は、マルチオブジェクト検出と複数のカメラ間のトラッキングに適した、エンドツーエンドのアプローチである。
MCTRは、Detector TRansformer (DETR)のようなエンドツーエンドの検出器を利用して、カメラビューごとに独立して検出および検出埋め込みを生成する。
このフレームワークは、追跡されたオブジェクトに関するグローバル情報を付加する一連のトラック埋め込みを維持し、ビュー固有の検出埋め込みからローカル情報を統合することで、各フレームでそれらを更新する。
論文 参考訳(メタデータ) (2024-08-23T17:37:03Z) - ViewFormer: Exploring Spatiotemporal Modeling for Multi-View 3D Occupancy Perception via View-Guided Transformers [9.271932084757646]
3Dの占有は、前景と背景を物理的空間で区別することなく、全体のシーンをグリッドマップに表現する。
本稿では,効果的な多視点特徴集約のための学習優先視点アテンション機構を提案する。
既存の高品質データセットの上に構築されたベンチマークであるFlowOcc3Dを紹介します。
論文 参考訳(メタデータ) (2024-05-07T13:15:07Z) - MTMMC: A Large-Scale Real-World Multi-Modal Camera Tracking Benchmark [63.878793340338035]
マルチターゲットマルチカメラトラッキングは、複数のカメラからのビデオストリームを使用して個人を特定し、追跡する重要なタスクである。
このタスクの既存のデータセットは、制御されたカメラネットワーク設定内で合成または人工的に構築される。
我々は16台のマルチモーダルカメラで2つの異なる環境でキャプチャされた長いビデオシーケンスを含む実世界の大規模データセットであるMTMMCを紹介する。
論文 参考訳(メタデータ) (2024-03-29T15:08:37Z) - CML-MOTS: Collaborative Multi-task Learning for Multi-Object Tracking
and Segmentation [31.167405688707575]
ビデオフレーム上でのインスタンスレベルの視覚分析のためのフレームワークを提案する。
オブジェクト検出、インスタンスセグメンテーション、マルチオブジェクトトラッキングを同時に行うことができる。
提案手法は, KITTI MOTS と MOTS Challenge のデータセットを用いて広範に評価する。
論文 参考訳(メタデータ) (2023-11-02T04:32:24Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - DIVOTrack: A Novel Dataset and Baseline Method for Cross-View
Multi-Object Tracking in DIVerse Open Scenes [74.64897845999677]
歩行者が密集したDIVerse Openのシーンを対象とした,新しいクロスビュー多目的追跡データセットを提案する。
私たちのDIVOTrackには15の異なるシナリオと953のクロスビュートラックがあります。
さらに,クロスモット(CrossMOT)という統合型共同検出・クロスビュートラッキングフレームワークを用いた新しいベースラインクロスビュートラッキング手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T14:10:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。