論文の概要: DRMOT: A Dataset and Framework for RGBD Referring Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2602.04692v1
- Date: Wed, 04 Feb 2026 15:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.607307
- Title: DRMOT: A Dataset and Framework for RGBD Referring Multi-Object Tracking
- Title(参考訳): DRMOT:マルチオブジェクト追跡のRGBD参照のためのデータセットとフレームワーク
- Authors: Sijia Chen, Lijuan Ma, Yanqiu Yu, En Yu, Liman Liu, Wenbing Tao,
- Abstract要約: Referring Multi-Object Tracking (RMOT)は、言語記述に基づいて特定のターゲットを追跡することを目的としている。
本稿では,RGB,Depth(D),Language(L)モダリティを融合させて3D認識トラッキングを実現するモデルを必要とする新しいタスク,RGBD Referring Multi-Object Tracking (DRMOT)を提案する。
- 参考スコア(独自算出の注目度): 35.56361594180878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Multi-Object Tracking (RMOT) aims to track specific targets based on language descriptions and is vital for interactive AI systems such as robotics and autonomous driving. However, existing RMOT models rely solely on 2D RGB data, making it challenging to accurately detect and associate targets characterized by complex spatial semantics (e.g., ``the person closest to the camera'') and to maintain reliable identities under severe occlusion, due to the absence of explicit 3D spatial information. In this work, we propose a novel task, RGBD Referring Multi-Object Tracking (DRMOT), which explicitly requires models to fuse RGB, Depth (D), and Language (L) modalities to achieve 3D-aware tracking. To advance research on the DRMOT task, we construct a tailored RGBD referring multi-object tracking dataset, named DRSet, designed to evaluate models' spatial-semantic grounding and tracking capabilities. Specifically, DRSet contains RGB images and depth maps from 187 scenes, along with 240 language descriptions, among which 56 descriptions incorporate depth-related information. Furthermore, we propose DRTrack, a MLLM-guided depth-referring tracking framework. DRTrack performs depth-aware target grounding from joint RGB-D-L inputs and enforces robust trajectory association by incorporating depth cues. Extensive experiments on the DRSet dataset demonstrate the effectiveness of our framework.
- Abstract(参考訳): Referring Multi-Object Tracking (RMOT)は、言語記述に基づいて特定のターゲットを追跡することを目的としており、ロボット工学や自律運転のような対話型AIシステムに不可欠である。
しかし、既存のRMOTモデルは2次元RGBデータのみに依存しており、複雑な空間的意味論(例えば「カメラに最も近い人」)によって特徴付けられるターゲットを正確に検出し、関連付けることは困難であり、明確な3次元空間情報がないため、厳密な隠蔽下で信頼性の高いアイデンティティを維持することは困難である。
本稿では,RGB,Depth(D),Language(L)モダリティを3D認識トラッキングに利用するために,モデルにRGB,Depth(D),Language(L)モダリティの融合を明示的に要求する新しいタスク,RGBD Referring Multi-Object Tracking (DRMOT)を提案する。
DRMOTタスクの研究を前進させるために、モデルの空間意味的グラウンドとトラッキング機能を評価するために、DRSetと呼ばれるマルチオブジェクト追跡データセットを参照する調整されたRGBDを構築した。
具体的には、DRSetには187シーンのRGB画像と深度マップと240の言語記述が含まれており、56の記述には深さ関連情報が含まれている。
さらに,MLLM誘導深度参照トラッキングフレームワークであるDRTrackを提案する。
DRTrackはジョイントRGB-D-L入力から深度を意識した目標グラウンドを実行し、深さキューを組み込むことでロバストな軌道関連を強制する。
DRSetデータセットに関する大規模な実験は、我々のフレームワークの有効性を実証している。
関連論文リスト
- Collaborating Vision, Depth, and Thermal Signals for Multi-Modal Tracking: Dataset and Algorithm [103.36490810025752]
既存のマルチモーダルオブジェクト追跡アプローチは、主にRGB-DepthやRGB-Thermalのようなデュアルモーダルパラダイムに焦点を当てている。
本研究は、可視RGB、深度(D)、熱赤外(TIR)を含む3つの相補的なモードを利用する、新しいマルチモーダルトラッキングタスクを導入する。
我々はRDTTrackと呼ばれる新しいマルチモーダルトラッカーを提案する。これは、事前訓練されたRGBのみのトラッカーモデルを活用することで、ロバストトラッカーのためのトリモーダル情報を統合する。
論文 参考訳(メタデータ) (2025-09-29T13:05:15Z) - Learning Dual-Fused Modality-Aware Representations for RGBD Tracking [67.14537242378988]
従来のRGBオブジェクトトラッキングと比較して、奥行きモードの追加は、ターゲットとバックグラウンドの干渉を効果的に解決することができる。
既存のRGBDトラッカーでは2つのモードを別々に使用しており、特に有用な共有情報は無視されている。
DMTracker(Dual-fused Modality-aware Tracker)を提案する。DMTrackerは,RGBDのロバストな追跡のために,対象対象物の情報的および識別的表現を学習することを目的としている。
論文 参考訳(メタデータ) (2022-11-06T07:59:07Z) - RGBD Object Tracking: An In-depth Review [89.96221353160831]
まず、RGBD融合、深度利用、追跡フレームワークなど、さまざまな視点からRGBDオブジェクトトラッカーをレビューする。
我々はRGBDトラッカーの代表セットをベンチマークし、その性能に基づいて詳細な分析を行う。
論文 参考訳(メタデータ) (2022-03-26T18:53:51Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z) - DMD: A Large-Scale Multi-Modal Driver Monitoring Dataset for Attention
and Alertness Analysis [54.198237164152786]
視覚は運転監視システム(DMS)の最も豊かで費用対効果の高い技術である
十分に大規模で包括的なデータセットの欠如は、DMS開発の進展のボトルネックとなっている。
本稿では,実運転シナリオとシミュレーション運転シナリオを含む広範囲なデータセットであるドライバモニタリングデータセット(DMD)を紹介する。
論文 参考訳(メタデータ) (2020-08-27T12:33:54Z) - JRMOT: A Real-Time 3D Multi-Object Tracker and a New Large-Scale Dataset [34.609125601292]
我々は,RGB画像と3Dポイントクラウドの情報を統合し,リアルタイムトラッキング性能を実現する新しい3DMOTシステムJRMOTを提案する。
我々の研究の一環として、新しい大規模2D+3DデータセットとベンチマークであるJRDBデータセットをリリースしました。
提案する3D MOTシステムは,一般的な2DトラッキングKITTIベンチマークにおいて,競合する手法に対する最先端性能を示す。
論文 参考訳(メタデータ) (2020-02-19T19:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。