論文の概要: LLMTrack: Semantic Multi-Object Tracking with Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.06550v1
- Date: Sat, 10 Jan 2026 12:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.87105
- Title: LLMTrack: Semantic Multi-Object Tracking with Multi-modal Large Language Models
- Title(参考訳): LLMTrack: マルチモーダル大言語モデルを用いた意味的マルチオブジェクト追跡
- Authors: Pan Liao, Feng Yang, Di Wu, Jinwen Yu, Yuhua Zhu, Wenhui Zhao,
- Abstract要約: セマンティック・マルチオブジェクト追跡(SMOT)のための新しいエンドツーエンドフレームワークである textbfLLMTrack を提案する。
我々は、眼としてDINOを、脳としてLLaVA-OneVisionのマルチモーダル大モデルを用いて、深い理解から強いローカライゼーションを分離するバイオニックデザイン哲学を採用する。
- 参考スコア(独自算出の注目度): 7.6967194010564235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional Multi-Object Tracking (MOT) systems have achieved remarkable precision in localization and association, effectively answering \textit{where} and \textit{who}. However, they often function as autistic observers, capable of tracing geometric paths but blind to the semantic \textit{what} and \textit{why} behind object behaviors. To bridge the gap between geometric perception and cognitive reasoning, we propose \textbf{LLMTrack}, a novel end-to-end framework for Semantic Multi-Object Tracking (SMOT). We adopt a bionic design philosophy that decouples strong localization from deep understanding, utilizing Grounding DINO as the eyes and the LLaVA-OneVision multimodal large model as the brain. We introduce a Spatio-Temporal Fusion Module that aggregates instance-level interaction features and video-level contexts, enabling the Large Language Model (LLM) to comprehend complex trajectories. Furthermore, we design a progressive three-stage training strategy, Visual Alignment, Temporal Fine-tuning, and Semantic Injection via LoRA to efficiently adapt the massive model to the tracking domain. Extensive experiments on the BenSMOT benchmark demonstrate that LLMTrack achieves state-of-the-art performance, significantly outperforming existing methods in instance description, interaction recognition, and video summarization while maintaining robust tracking stability.
- Abstract(参考訳): 従来のMulti-Object Tracking (MOT) システムは、ローカライゼーションとアソシエーションにおいて顕著な精度を達成しており、事実上 \textit{where} と \textit{who} に答えている。
しかし、それらはしばしば自閉症の観察者として機能し、幾何学的な経路をトレースできるが、オブジェクトの振る舞いの背後にある意味的な \textit{what} と \textit{why} に盲目である。
幾何学的知覚と認知的推論のギャップを埋めるために,セマンティック・マルチオブジェクト追跡(SMOT)のための新しいエンドツーエンドフレームワークである「textbf{LLMTrack}」を提案する。
我々は、眼としてDINOを、脳としてLLaVA-OneVisionのマルチモーダル大モデルを用いて、深い理解から強いローカライゼーションを分離するバイオニックデザイン哲学を採用する。
インスタンスレベルのインタラクション機能とビデオレベルのコンテキストを集約し,LLM(Large Language Model)による複雑なトラジェクトリの理解を可能にする。
さらに,大規模モデルをトラッキング領域に効率よく適応させるために,プログレッシブな3段階トレーニング戦略,視覚アライメント,テンポラルファインタニング,LORAによるセマンティックインジェクションを設計する。
BenSMOTベンチマークの大規模な実験は、LLMTrackが最先端のパフォーマンスを達成し、堅牢なトラッキング安定性を維持しつつ、インスタンス記述、対話認識、ビデオ要約といった既存の手法を著しく上回っていることを示している。
関連論文リスト
- AR-MOT: Autoregressive Multi-object Tracking [56.09738000988466]
本稿では,大規模言語モデル(LLM)フレームワーク内のシーケンス生成タスクとしてMOTを定式化する,新しい自己回帰パラダイムを提案する。
この設計により、タスク固有のヘッドを必要とせずに、フレキシブルなシーケンス構成によって構造化された結果を出力できる。
地域レベルの視覚知覚を高めるために,事前訓練された検出器に基づくオブジェクト・トケナイザを導入する。
論文 参考訳(メタデータ) (2026-01-05T09:17:28Z) - Vision-Motion-Reference Alignment for Referring Multi-Object Tracking via Multi-Modal Large Language Models [29.330083952817997]
我々はVMRMOTという新しいビジョン・モーション・リファレンス・アライメントのRMOTフレームワークを提案する。
物体力学から抽出された運動モーダリティを統合し、視覚モーダリティと言語参照のアライメントを強化する。
我々の知る限りでは、VMRMOT は RMOT タスクに MLLM を採用する最初のアプローチである。
論文 参考訳(メタデータ) (2025-11-21T08:53:31Z) - TrajSceneLLM: A Multimodal Perspective on Semantic GPS Trajectory Analysis [0.0]
我々は,GPSトラジェクトリのセマンティック理解を強化するためのマルチモーダル視点であるTrajSceneLLMを提案する。
本稿では,旅行選択を分析し,移動行動を理解する上で重要な課題である旅行モード識別(TMI)の枠組みを検証した。
このセマンティックエンハンスメントは、さまざまな下流のアプリケーションや、人工知能の将来の研究に有意義な可能性を約束する。
論文 参考訳(メタデータ) (2025-06-19T15:31:40Z) - CAMELTrack: Context-Aware Multi-cue ExpLoitation for Online Multi-Object Tracking [68.24998698508344]
CAMELはコンテキスト対応型マルチキューExpLoitationのための新しいアソシエイトモジュールである。
エンド・ツー・エンドの検知・バイ・トラック方式とは異なり,本手法は軽量かつ高速にトレーニングが可能であり,外部のオフ・ザ・シェルフモデルを活用することができる。
提案するオンライントラッキングパイプラインであるCAMELTrackは,複数のトラッキングベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-02T13:26:23Z) - MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language Tracking [8.696516368633143]
本研究では,マンバをベースとした視覚言語追跡モデルを提案し,その時間空間における状態空間の進化能力を利用して,ロバストなマルチモーダルトラッキングを実現する。
特に,本手法は,時間発展型ハイブリッド状態空間ブロックと選択的局所性拡張ブロックを統合し,文脈情報を取得する。
本手法は,多種多様なベンチマークにおける最先端トラッカーに対して良好に機能する。
論文 参考訳(メタデータ) (2024-11-23T05:31:58Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - SoDA: Multi-Object Tracking with Soft Data Association [75.39833486073597]
マルチオブジェクトトラッキング(MOT)は、自動運転車の安全な配備の前提条件である。
観測対象間の依存関係をエンコードするトラック埋め込みの計算に注目するMOTに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-18T03:40:25Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。