論文の概要: Bootstrapping Referring Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2406.05039v2
- Date: Mon, 27 Oct 2025 14:22:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.26841
- Title: Bootstrapping Referring Multi-Object Tracking
- Title(参考訳): ブートストラップによるマルチオブジェクト追跡
- Authors: Yani Zhang, Dongming Wu, Wencheng Han, Xingping Dong,
- Abstract要約: マルチオブジェクト追跡(RMOT)と呼ばれる新しい一般的な参照理解タスクを導入する。
その中核となる考え方は、言語表現を意味的キューとして利用して、多目的追跡の予測を導くことである。
高品質なアノテーションを効率よく生成するために,9,758個の言語プロンプトを定式化する半自動ラベリングパイプラインを提案する。
- 参考スコア(独自算出の注目度): 27.77514740607812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.
- Abstract(参考訳): 理解の参照は、自由表現で記述されたオブジェクトをローカライズすることで、自然言語と視覚コンテンツをブリッジする基本的なタスクである。
しかし、既存の作品は言語表現性に制約されており、空間数や時間状態のオブジェクトのダイナミクスをモデル化する能力が欠如している。
これらの制約に対処するため,Multi-object Tracking (RMOT) と呼ばれる新しい一般的な参照理解タスクを導入する。
その中核となる考え方は、言語表現を意味的キューとして利用し、多目的追跡の予測を導くことであり、オブジェクト量と時間的意味論のバリエーションを包括的に説明することである。
RMOTとともに、スケーラブルで多様な言語表現を備えたRMOTベンチマークRefer-KITTI-V2を導入する。
オブジェクトの動的動作を最小限の手作業でカバーする高品質なアノテーションを効率よく生成するために,9,758個の言語プロンプトを定式化する半自動ラベリングパイプラインを提案する。
また、RMOTのためのエレガントなエンドツーエンドトランスフォーマーベースのフレームワークであるTempRMOTを提案する。
コアとなるのは、各オブジェクトをTransformerクエリとして表現するクエリ駆動の時間拡張モジュールである。
TempRMOT は Refer-KITTI と Refer-KITTI-V2 の両方の最先端性能を実現し,本手法の有効性を実証した。
ソースコードとデータセットはhttps://github.com/zyn213/TempRMOTで公開されている。
関連論文リスト
- ReferGPT: Towards Zero-Shot Referring Multi-Object Tracking [17.736434513456576]
ReferGPTは、新しいゼロショット参照マルチオブジェクト追跡フレームワークである。
空間知識を付加した多モード大言語モデル(MLLM)により、3D対応キャプションを生成する。
また,CLIPに基づくセマンティックエンコーディングとファジィマッチングを利用して,MLLM生成されたキャプションとユーザクエリを関連付ける,堅牢なクエリマッチング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-12T12:33:15Z) - Cognitive Disentanglement for Referring Multi-Object Tracking [28.325814292139686]
本稿では,CDRMT(Cognitive Disentanglement for Referring Multi-Object Tracking)フレームワークを提案する。
CDRMTは人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。
異なるベンチマークデータセットの実験では、CDRMTが最先端のメソッドよりも大幅に改善されていることが示されている。
論文 参考訳(メタデータ) (2025-03-14T15:21:54Z) - SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking [89.43370214059955]
Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。
我々は,連合の初期段階において,意味論,位置,出現の先行を共同で検討する統一的な枠組みを提案する。
提案手法は,異なるキューを融合するための複雑な後処理を排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:36:58Z) - Referring Multi-Object Tracking [78.63827591797124]
本稿では,Multi-object Tracking (RMOT) と呼ばれる,新しい汎用的な参照理解タスクを提案する。
その中核となる考え方は、言語表現を意味的キューとして利用して、多目的追跡の予測を導くことである。
我々の知る限りでは、ビデオにおける任意の数の参照オブジェクト予測を達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2023-03-06T18:50:06Z) - Dialogue State Tracking with a Language Model using Schema-Driven
Prompting [18.83983018421701]
本稿では,スキーマ駆動型プロンプトを用いてタスク認識履歴エンコーディングを行う言語モデリング手法の新たなバリエーションを提案する。
我々の純生成システムは、MultiWOZ 2.2の最先端性能を実現し、MultiWOZ 2.1とM2Mの2つのベンチマークで競合性能を達成する。
論文 参考訳(メタデータ) (2021-09-15T18:11:25Z) - Towards More Flexible and Accurate Object Tracking with Natural
Language: Algorithms and Benchmark [46.691218019908746]
自然言語の仕様による追跡は、その言語記述に基づいてビデオシーケンス内のターゲットオブジェクトを見つけることを目的とした新しい上昇研究トピックです。
大規模データセットを含む,言語別追跡に特化した新たなベンチマークを提案する。
また,TNL2Kには,対象追跡タスク,すなわち対向サンプルとモダリティスイッチの2つの新しい課題を導入する。
論文 参考訳(メタデータ) (2021-03-31T00:57:32Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - MTOP: A Comprehensive Multilingual Task-Oriented Semantic Parsing
Benchmark [31.91964553419665]
我々はMTOPと呼ばれる新しい多言語データセットを提案し、11ドメインの6言語で100kの注釈付き発話を合成する。
既存の2つの多言語データセットに対して、Slot F1上の+6.3ポイントの平均的な改善を、実験で報告された最良の結果よりも達成する。
本稿では,事前学習モデルと自動翻訳とアライメントを組み合わせたゼロショット性能と,スロットラベル投影におけるノイズ低減のための遠隔監視手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T07:02:11Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。