論文の概要: Bootstrapping Referring Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2406.05039v1
- Date: Fri, 7 Jun 2024 16:02:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-10 13:22:27.804111
- Title: Bootstrapping Referring Multi-Object Tracking
- Title(参考訳): ブートストラップによるマルチオブジェクト追跡
- Authors: Yani Zhang, Dongming Wu, Wencheng Han, Xingping Dong,
- Abstract要約: マルチオブジェクト追跡(RMOT)の参照は、自然言語表現で表される人間の指示に従って複数のオブジェクトを検出し、追跡することを目的としている。
我々のキーとなる考え方は、差別的な言語単語を導入することで、多目的追跡のタスクをブートストラップすることである。
- 参考スコア(独自算出の注目度): 14.46285727127232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring multi-object tracking (RMOT) aims at detecting and tracking multiple objects following human instruction represented by a natural language expression. Existing RMOT benchmarks are usually formulated through manual annotations, integrated with static regulations. This approach results in a dearth of notable diversity and a constrained scope of implementation. In this work, our key idea is to bootstrap the task of referring multi-object tracking by introducing discriminative language words as much as possible. In specific, we first develop Refer-KITTI into a large-scale dataset, named Refer-KITTI-V2. It starts with 2,719 manual annotations, addressing the issue of class imbalance and introducing more keywords to make it closer to real-world scenarios compared to Refer-KITTI. They are further expanded to a total of 9,758 annotations by prompting large language models, which create 617 different words, surpassing previous RMOT benchmarks. In addition, the end-to-end framework in RMOT is also bootstrapped by a simple yet elegant temporal advancement strategy, which achieves better performance than previous approaches. The source code and dataset is available at https://github.com/zyn213/TempRMOT.
- Abstract(参考訳): マルチオブジェクト追跡(RMOT)の参照は、自然言語表現で表される人間の指示に従って複数のオブジェクトを検出し、追跡することを目的としている。
既存のRMOTベンチマークは通常、手動のアノテーションによって定式化され、静的な規則と統合される。
このアプローチは、顕著な多様性と、実装の制約されたスコープを損なう結果をもたらす。
本研究では,識別言語単語を可能な限り導入することにより,多目的トラッキングのタスクをブートストラップすることを目的とする。
具体的には、まずRefer-KITTIを大規模データセットとして、Refer-KITTI-V2を開発した。
最初は2,719のマニュアルアノテーションから始まり、クラス不均衡の問題に対処し、Refer-KITTIと比較して現実のシナリオに近づくためにより多くのキーワードを導入している。
さらに、合計9,758のアノテーションに拡張され、617の異なる単語を生成する大きな言語モデルが、以前のRMOTベンチマークを超えている。
さらに、RMOTのエンドツーエンドフレームワークは、従来のアプローチよりも優れたパフォーマンスを実現する、単純だがエレガントな一時進行戦略によって、ブートストラップされる。
ソースコードとデータセットはhttps://github.com/zyn213/TempRMOTで公開されている。
関連論文リスト
- Object-Centric Framework for Video Moment Retrieval [15.916994168542345]
既存のモーメント検索手法の多くは、主にグローバルな視覚情報と意味情報をエンコードするフレームレベルの特徴の時間的シーケンスに依存している。
特に、オブジェクトレベルの時間的ダイナミクスは、主に見過ごされ、オブジェクトレベルの推論を必要とするシナリオにおける既存のアプローチを制限する。
提案手法は,まずシーングラフを用いてクエリ関連オブジェクトを抽出し,次にビデオフレームからグラフを抽出して,それらのオブジェクトとその関係を表現する。
シーングラフに基づいて、リッチな視覚情報や意味情報をエンコードするオブジェクトレベルの特徴系列を構築し、時間とともにオブジェクト間の関係時間的ローカライゼーションをモデル化するビデオトラックレット変換器で処理する。
論文 参考訳(メタデータ) (2025-12-20T17:44:53Z) - Referring Video Object Segmentation with Cross-Modality Proxy Queries [23.504655272754587]
Referring Video Object segmentation (RVOS)は、与えられたテキスト表現によって参照される対象オブジェクトのピクセルレベルマップを生成することを目的とした、新たなクロスモーダルタスクである。
近年のアプローチでは、条件付きクエリによるモダリティアライメントに対処し、クエリ応答に基づくメカニズムを用いて対象オブジェクトを追跡する。
本稿では,視覚とテキストのセマンティクスを統合するためのプロキシクエリセットを導入するProxyFormerという新しいRVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-11-26T07:45:41Z) - RefAtomNet++: Advancing Referring Atomic Video Action Recognition using Semantic Retrieval based Multi-Trajectory Mamba [86.47790050206306]
RefAVA++は290万フレームと75.1kの注釈付き人で構成される。
RefAtomNet++は、多階層的なセマンティックアラインなクロスアテンションメカニズムを通じて、クロスモーダルトークンアグリゲーションを前進させる。
実験によると、RefAtomNet++は新しい最先端の結果を確立している。
論文 参考訳(メタデータ) (2025-10-18T10:41:19Z) - ReferGPT: Towards Zero-Shot Referring Multi-Object Tracking [17.736434513456576]
ReferGPTは、新しいゼロショット参照マルチオブジェクト追跡フレームワークである。
空間知識を付加した多モード大言語モデル(MLLM)により、3D対応キャプションを生成する。
また,CLIPに基づくセマンティックエンコーディングとファジィマッチングを利用して,MLLM生成されたキャプションとユーザクエリを関連付ける,堅牢なクエリマッチング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-12T12:33:15Z) - Cognitive Disentanglement for Referring Multi-Object Tracking [28.325814292139686]
本稿では,CDRMT(Cognitive Disentanglement for Referring Multi-Object Tracking)フレームワークを提案する。
CDRMTは人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。
異なるベンチマークデータセットの実験では、CDRMTが最先端のメソッドよりも大幅に改善されていることが示されている。
論文 参考訳(メタデータ) (2025-03-14T15:21:54Z) - Temporal-Enhanced Multimodal Transformer for Referring Multi-Object Tracking and Segmentation [28.16053631036079]
Referring Multi-object Tracking (RMOT)は、ビデオ中の任意の数の対象物を見つけることを目的とした、新たなクロスモーダルタスクである。
本稿では, Transformer アーキテクチャの利点を活用するために TenRMOT と呼ばれる小型トランスフォーマー方式を提案する。
TenRMOTは参照マルチオブジェクト追跡とセグメンテーションタスクの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-17T11:07:05Z) - SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking [89.43370214059955]
Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。
我々は,連合の初期段階において,意味論,位置,出現の先行を共同で検討する統一的な枠組みを提案する。
提案手法は,異なるキューを融合するための複雑な後処理を排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:36:58Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-12T14:28:24Z) - Referring Multi-Object Tracking [78.63827591797124]
本稿では,Multi-object Tracking (RMOT) と呼ばれる,新しい汎用的な参照理解タスクを提案する。
その中核となる考え方は、言語表現を意味的キューとして利用して、多目的追跡の予測を導くことである。
我々の知る限りでは、ビデオにおける任意の数の参照オブジェクト予測を達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2023-03-06T18:50:06Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Dialogue State Tracking with a Language Model using Schema-Driven
Prompting [18.83983018421701]
本稿では,スキーマ駆動型プロンプトを用いてタスク認識履歴エンコーディングを行う言語モデリング手法の新たなバリエーションを提案する。
我々の純生成システムは、MultiWOZ 2.2の最先端性能を実現し、MultiWOZ 2.1とM2Mの2つのベンチマークで競合性能を達成する。
論文 参考訳(メタデータ) (2021-09-15T18:11:25Z) - Towards More Flexible and Accurate Object Tracking with Natural
Language: Algorithms and Benchmark [46.691218019908746]
自然言語の仕様による追跡は、その言語記述に基づいてビデオシーケンス内のターゲットオブジェクトを見つけることを目的とした新しい上昇研究トピックです。
大規模データセットを含む,言語別追跡に特化した新たなベンチマークを提案する。
また,TNL2Kには,対象追跡タスク,すなわち対向サンプルとモダリティスイッチの2つの新しい課題を導入する。
論文 参考訳(メタデータ) (2021-03-31T00:57:32Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - MTOP: A Comprehensive Multilingual Task-Oriented Semantic Parsing
Benchmark [31.91964553419665]
我々はMTOPと呼ばれる新しい多言語データセットを提案し、11ドメインの6言語で100kの注釈付き発話を合成する。
既存の2つの多言語データセットに対して、Slot F1上の+6.3ポイントの平均的な改善を、実験で報告された最良の結果よりも達成する。
本稿では,事前学習モデルと自動翻訳とアライメントを組み合わせたゼロショット性能と,スロットラベル投影におけるノイズ低減のための遠隔監視手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T07:02:11Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。