論文の概要: Vision-Motion-Reference Alignment for Referring Multi-Object Tracking via Multi-Modal Large Language Models
- arxiv url: http://arxiv.org/abs/2511.17681v1
- Date: Fri, 21 Nov 2025 08:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.359717
- Title: Vision-Motion-Reference Alignment for Referring Multi-Object Tracking via Multi-Modal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルによる多対象追跡の参照のための視覚-運動-参照アライメント
- Authors: Weiyi Lv, Ning Zhang, Hanyang Sun, Haoran Jiang, Kai Zhao, Jing Xiao, Dan Zeng,
- Abstract要約: 我々はVMRMOTという新しいビジョン・モーション・リファレンス・アライメントのRMOTフレームワークを提案する。
物体力学から抽出された運動モーダリティを統合し、視覚モーダリティと言語参照のアライメントを強化する。
我々の知る限りでは、VMRMOT は RMOT タスクに MLLM を採用する最初のアプローチである。
- 参考スコア(独自算出の注目度): 29.330083952817997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Multi-Object Tracking (RMOT) extends conventional multi-object tracking (MOT) by introducing natural language references for multi-modal fusion tracking. RMOT benchmarks only describe the object's appearance, relative positions, and initial motion states. This so-called static regulation fails to capture dynamic changes of the object motion, including velocity changes and motion direction shifts. This limitation not only causes a temporal discrepancy between static references and dynamic vision modality but also constrains multi-modal tracking performance. To address this limitation, we propose a novel Vision-Motion-Reference aligned RMOT framework, named VMRMOT. It integrates a motion modality extracted from object dynamics to enhance the alignment between vision modality and language references through multi-modal large language models (MLLMs). Specifically, we introduce motion-aware descriptions derived from object dynamic behaviors and, leveraging the powerful temporal-reasoning capabilities of MLLMs, extract motion features as the motion modality. We further design a Vision-Motion-Reference Alignment (VMRA) module to hierarchically align visual queries with motion and reference cues, enhancing their cross-modal consistency. In addition, a Motion-Guided Prediction Head (MGPH) is developed to explore motion modality to enhance the performance of the prediction head. To the best of our knowledge, VMRMOT is the first approach to employ MLLMs in the RMOT task for vision-reference alignment. Extensive experiments on multiple RMOT benchmarks demonstrate that VMRMOT outperforms existing state-of-the-art methods.
- Abstract(参考訳): Referring Multi-Object Tracking (RMOT)は、マルチモーダルフュージョントラッキングのための自然言語参照を導入することで、従来のマルチオブジェクトトラッキング(MOT)を拡張している。
RMOTベンチマークは、物体の外観、相対位置、初期運動状態のみを記述する。
このいわゆる静的な規制は、速度の変化や動き方向のシフトを含む物体の動きの動的変化を捉えることに失敗する。
この制限は静的参照と動的ヴィジュアルモダリティの時間差を引き起こすだけでなく、マルチモーダルトラッキング性能にも制約を与える。
この制限に対処するために,VMRMOT という新しいビジョン・モーション・リファレンス・アライメント RMOT フレームワークを提案する。
オブジェクトのダイナミクスから抽出された動きのモダリティを統合し、マルチモーダル大言語モデル(MLLM)を通して視覚のモダリティと言語参照のアライメントを強化する。
具体的には、物体の動的挙動から派生した動き認識記述を導入し、MLLMの強力な時間的推論機能を活用し、運動特徴を運動モーダルとして抽出する。
さらに、視覚的クエリをモーションや参照キューと階層的に整列させ、その相互整合性を高めるために、ビジョン-モーション-参照整合(VMRA)モジュールを設計する。
さらに, 動き誘導予測ヘッド(MGPH)を開発し, 動きのモダリティを探索し, 予測ヘッドの性能を向上させる。
我々の知る限りでは、VMRMOT は RMOT タスクに MLLM を採用する最初のアプローチである。
複数のRMOTベンチマークに対する大規模な実験は、VMRMOTが既存の最先端手法より優れていることを示している。
関連論文リスト
- MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation [81.4106601222722]
トラジェクティブに基づくモーションコントロールは、制御可能なビデオ生成のための直感的で効率的なアプローチとして登場した。
我々はC-Dragという制御可能なビデオ生成のためのチェーン・オブ・ソート型モーションコントローラを提案する。
本手法は,物体認識モジュールとChain-of-Thoughtベースの動作推論モジュールを含む。
論文 参考訳(メタデータ) (2025-02-27T08:21:03Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete
Representations [25.630268570049708]
MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。
提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
論文 参考訳(メタデータ) (2023-10-16T09:09:02Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。