論文の概要: STORM: End-to-End Referring Multi-Object Tracking in Videos
- arxiv url: http://arxiv.org/abs/2604.10527v1
- Date: Sun, 12 Apr 2026 08:43:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.074755
- Title: STORM: End-to-End Referring Multi-Object Tracking in Videos
- Title(参考訳): STORM: ビデオ内のマルチオブジェクト追跡を終端から終端に参照する
- Authors: Zijia Lu, Jingru Yi, Jue Wang, Yuxiao Chen, Junwen Chen, Xinyu Li, Davide Modolo,
- Abstract要約: 参照マルチオブジェクト追跡(RMOT)は、所定のテキストクエリや参照式にセマンティックにマッチするビデオ内のすべてのオブジェクトを関連付けるタスクである。
既存のRMOTアプローチは、オブジェクトのグラウンドとトラッキングを分離したモジュールに分解し、限られた性能を示す。
統合されたフレームワーク内でグラウンディングとトラッキングを共同で実行するエンドツーエンドのMLLMであるSTORMを紹介します。
- 参考スコア(独自算出の注目度): 21.06069180171397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring multi-object tracking (RMOT) is a task of associating all the objects in a video that semantically match with given textual queries or referring expressions. Existing RMOT approaches decompose object grounding and tracking into separated modules and exhibit limited performance due to the scarcity of training videos, ambiguous annotations, and restricted domains. In this work, we introduce STORM, an end-to-end MLLM that jointly performs grounding and tracking within a unified framework, eliminating external detectors and enabling coherent reasoning over appearance, motion, and language. To improve data efficiency, we propose a task-composition learning (TCL) strategy that decomposes RMOT into image grounding and object tracking, allowing STORM to leverage data-rich sub-tasks and learn structured spatial--temporal reasoning. We further construct STORM-Bench, a new RMOT dataset with accurate trajectories and diverse, unambiguous referring expressions generated through a bottom-up annotation pipeline. Extensive experiments show that STORM achieves state-of-the-art performance on image grounding, single-object tracking, and RMOT benchmarks, demonstrating strong generalization and robust spatial--temporal grounding in complex real-world scenarios. STORM-Bench is released at https://github.com/amazon-science/storm-referring-multi-object-grounding.
- Abstract(参考訳): 参照マルチオブジェクト追跡(RMOT)は、所定のテキストクエリや参照式にセマンティックにマッチするビデオ内のすべてのオブジェクトを関連付けるタスクである。
既存のRMOTアプローチでは、オブジェクトのグラウンドとトラッキングを分離したモジュールに分解し、トレーニングビデオ、曖昧なアノテーション、制限されたドメインが不足しているため、限られたパフォーマンスを示す。
本研究では,統合されたフレームワーク内での接地と追跡を共同で行い,外部検出器を排除し,外観,動き,言語に対する一貫性のある推論を可能にする,エンドツーエンドのMLLMであるSTORMを紹介する。
データ効率を向上させるために,RMOTを画像グラウンドとオブジェクトトラッキングに分解するタスク合成学習(TCL)戦略を提案する。
さらに、ボトムアップアノテーションパイプラインから生成された正確な軌跡と多様であいまいな参照表現を備えた新しいRMOTデータセットであるSTORM-Benchを構築します。
大規模な実験により、STORMは画像グラウンド、単一対象追跡、RMOTベンチマークで最先端のパフォーマンスを達成し、複雑な実世界のシナリオにおいて強力な一般化と堅牢な時空間グラウンドを実証した。
STORM-Benchはhttps://github.com/amazon-science/storm-referring-multi-ject-groundingでリリースされた。
関連論文リスト
- LLMTrack: Semantic Multi-Object Tracking with Multi-modal Large Language Models [7.6967194010564235]
セマンティック・マルチオブジェクト追跡(SMOT)のための新しいエンドツーエンドフレームワークである textbfLLMTrack を提案する。
我々は、眼としてDINOを、脳としてLLaVA-OneVisionのマルチモーダル大モデルを用いて、深い理解から強いローカライゼーションを分離するバイオニックデザイン哲学を採用する。
論文 参考訳(メタデータ) (2026-01-10T12:18:12Z) - Cognitive Disentanglement for Referring Multi-Object Tracking [28.325814292139686]
本稿では,CDRMT(Cognitive Disentanglement for Referring Multi-Object Tracking)フレームワークを提案する。
CDRMTは人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。
異なるベンチマークデータセットの実験では、CDRMTが最先端のメソッドよりも大幅に改善されていることが示されている。
論文 参考訳(メタデータ) (2025-03-14T15:21:54Z) - VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
本稿では,空間意味的特徴と識別的オブジェクトクエリを学習する,ロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
DAVIS 2017 test (textbf87.8%)、YoutubeVOS 2019 (textbf88.1%)、MOSE val (textbf74.0%)、LVOS test (textbf73.0%)を含むベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。