論文の概要: Look Around and Pay Attention: Multi-camera Point Tracking Reimagined with Transformers
- arxiv url: http://arxiv.org/abs/2512.04213v1
- Date: Wed, 03 Dec 2025 19:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.842053
- Title: Look Around and Pay Attention: Multi-camera Point Tracking Reimagined with Transformers
- Title(参考訳): 見回しと支払い注意:トランスフォーマーで再現されたマルチカメラポイント追跡
- Authors: Bishoy Galoaa, Xiangyu Bai, Shayda Moezzi, Utsav Nandi, Sai Siddhartha Vivek Dhir Rangoju, Somaieh Amraee, Sarah Ostadabbas,
- Abstract要約: LAPA(Look Around and Pay Attention)は、マルチカメラポイントトラッキングのための、エンドツーエンドのトランスフォーマーベースのアーキテクチャである。
古典的三角法に頼る代わりに、注意重み付けによる3次元点表現を構築する。
TAPVid-3Dパン光学とPointOdysseyの新しいマルチカメラ(MC)バージョンを含む、挑戦的なデータセットの実験は、我々の統一アプローチが既存の手法を大幅に上回っていることを実証している。
- 参考スコア(独自算出の注目度): 5.025261312338861
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents LAPA (Look Around and Pay Attention), a novel end-to-end transformer-based architecture for multi-camera point tracking that integrates appearance-based matching with geometric constraints. Traditional pipelines decouple detection, association, and tracking, leading to error propagation and temporal inconsistency in challenging scenarios. LAPA addresses these limitations by leveraging attention mechanisms to jointly reason across views and time, establishing soft correspondences through a cross-view attention mechanism enhanced with geometric priors. Instead of relying on classical triangulation, we construct 3D point representations via attention-weighted aggregation, inherently accommodating uncertainty and partial observations. Temporal consistency is further maintained through a transformer decoder that models long-range dependencies, preserving identities through extended occlusions. Extensive experiments on challenging datasets, including our newly created multi-camera (MC) versions of TAPVid-3D panoptic and PointOdyssey, demonstrate that our unified approach significantly outperforms existing methods, achieving 37.5% APD on TAPVid-3D-MC and 90.3% APD on PointOdyssey-MC, particularly excelling in scenarios with complex motions and occlusions. Code is available at https://github.com/ostadabbas/Look-Around-and-Pay-Attention-LAPA-
- Abstract(参考訳): 本稿では,マルチカメラポイントトラッキングのための新しいエンドツーエンドトランスフォーマーアーキテクチャであるLAPA(Look Around and Pay Attention)について述べる。
従来のパイプラインでは、検出、アソシエーション、トラッキングを分離することで、エラーの伝搬と、困難なシナリオにおける時間的不整合につながる。
LAPAはこれらの制限に対処するために、視線と時間にわたって共同で推論するアテンションメカニズムを活用し、幾何学的先行性によって強化されたクロスビューアテンションメカニズムを通じてソフト対応を確立する。
古典的な三角測量に頼る代わりに、注意重み付けによる3次元点表現を構築し、本質的に不確実性や部分的な観察を調節する。
時間的一貫性は、長期依存をモデル化し、拡張オクルージョンを通じてアイデンティティを保持するトランスフォーマーデコーダによってさらに維持される。
TAPVid-3DパノプティクスとPointOdysseyのマルチカメラ(MC)バージョンを含む、挑戦的なデータセットに関する大規模な実験では、我々の統一されたアプローチが既存の手法を著しく上回り、TAPVid-3D-MCでは37.5%のAPD、PointOdyssey-MCでは90.3%のAPDを達成した。
コードはhttps://github.com/ostadabbas/Look-and-Pay-Attention-LAPAで公開されている。
関連論文リスト
- TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction [57.46712611558817]
3次元視覚基礎モデルでは、1つのフィードフォワードパスを通して、未校正画像からキー3D属性を再構成する際の強力な一般化が示されている。
近年の戦略は,グローバルトランスフォーメーションの解決によって連続的な予測と整合するが,本分析では,仮定の妥当性,局所的なアライメント範囲,雑音的幾何の下でのロバスト性といった基本的な限界を明らかにしている。
本研究では,グローバルに伝播する制御点を利用して空間的に異なる不整合を補正する,Tin Plate Splineに基づく高DOFおよび長期アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T02:22:20Z) - Delving into Dynamic Scene Cue-Consistency for Robust 3D Multi-Object Tracking [16.366398265001422]
3D多目的追跡は、自動運転分野において重要かつ困難な課題である。
本稿では,この原理を実現するために動的シーンCue-Consistency Tracker(DSC-Track)を提案する。
論文 参考訳(メタデータ) (2025-08-15T08:48:13Z) - GRASPTrack: Geometry-Reasoned Association via Segmentation and Projection for Multi-Object Tracking [11.436294975354556]
GRASPTrackはモノクロ深度推定とインスタンスセグメンテーションを標準TBDパイプラインに統合する新しいMOTフレームワークである。
これらの3D点雲は、精密で堅牢なVoxel-based 3D Intersection-over-Unionを可能にするために酸化される。
論文 参考訳(メタデータ) (2025-08-11T15:56:21Z) - ViewFormer: Exploring Spatiotemporal Modeling for Multi-View 3D Occupancy Perception via View-Guided Transformers [9.271932084757646]
3Dの占有は、前景と背景を物理的空間で区別することなく、全体のシーンをグリッドマップに表現する。
本稿では,効果的な多視点特徴集約のための学習優先視点アテンション機構を提案する。
既存の高品質データセットの上に構築されたベンチマークであるFlowOcc3Dを紹介します。
論文 参考訳(メタデータ) (2024-05-07T13:15:07Z) - Geometry-Biased Transformer for Robust Multi-View 3D Human Pose
Reconstruction [3.069335774032178]
マルチビュー2次元ポーズシーケンスから3次元ポーズを推定するエンコーダ・デコーダ変換アーキテクチャを提案する。
我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットで実験を行った。
論文 参考訳(メタデータ) (2023-12-28T16:30:05Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Learning Monocular Depth in Dynamic Environment via Context-aware
Temporal Attention [9.837958401514141]
マルチフレーム単眼深度推定のためのコンテキスト対応テンポラルアテンション誘導ネットワークであるCTA-Depthを提案する。
提案手法は,3つのベンチマークデータセットに対する最先端アプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-05-12T11:48:32Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。