論文の概要: ReferGPT: Towards Zero-Shot Referring Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2504.09195v1
- Date: Sat, 12 Apr 2025 12:33:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:57.783540
- Title: ReferGPT: Towards Zero-Shot Referring Multi-Object Tracking
- Title(参考訳): ReferGPT:Zero-Shot Referring Multi-Object Trackingに向けて
- Authors: Tzoulio Chamiti, Leandro Di Bella, Adrian Munteanu, Nikos Deligiannis,
- Abstract要約: ReferGPTは、新しいゼロショット参照マルチオブジェクト追跡フレームワークである。
空間知識を付加した多モード大言語モデル(MLLM)により、3D対応キャプションを生成する。
また,CLIPに基づくセマンティックエンコーディングとファジィマッチングを利用して,MLLM生成されたキャプションとユーザクエリを関連付ける,堅牢なクエリマッチング戦略を提案する。
- 参考スコア(独自算出の注目度): 17.736434513456576
- License:
- Abstract: Tracking multiple objects based on textual queries is a challenging task that requires linking language understanding with object association across frames. Previous works typically train the whole process end-to-end or integrate an additional referring text module into a multi-object tracker, but they both require supervised training and potentially struggle with generalization to open-set queries. In this work, we introduce ReferGPT, a novel zero-shot referring multi-object tracking framework. We provide a multi-modal large language model (MLLM) with spatial knowledge enabling it to generate 3D-aware captions. This enhances its descriptive capabilities and supports a more flexible referring vocabulary without training. We also propose a robust query-matching strategy, leveraging CLIP-based semantic encoding and fuzzy matching to associate MLLM generated captions with user queries. Extensive experiments on Refer-KITTI, Refer-KITTIv2 and Refer-KITTI+ demonstrate that ReferGPT achieves competitive performance against trained methods, showcasing its robustness and zero-shot capabilities in autonomous driving. The codes are available on https://github.com/Tzoulio/ReferGPT
- Abstract(参考訳): テキストクエリに基づく複数のオブジェクトの追跡は、言語理解とフレーム間のオブジェクト関連をリンクする必要がある難しいタスクである。
以前の作業は通常、プロセス全体をエンドツーエンドにトレーニングするか、追加の参照テキストモジュールをマルチオブジェクトトラッカーに統合するが、どちらも教師付きトレーニングを必要とし、オープンセットクエリの一般化に苦労する可能性がある。
本稿では,新しいゼロショット参照マルチオブジェクト追跡フレームワークReferGPTを紹介する。
空間知識を付加した多モード大言語モデル(MLLM)により、3D対応キャプションを生成する。
これにより記述能力が向上し、トレーニングなしでより柔軟な参照語彙をサポートする。
また,CLIPに基づくセマンティックエンコーディングとファジィマッチングを利用して,MLLM生成されたキャプションとユーザクエリを関連付ける,堅牢なクエリマッチング戦略を提案する。
Refer-KITTI、Refer-KITTIv2、Refer-KITTI+に関する大規模な実験は、ReferGPTが訓練された方法に対する競争性能を達成し、自動運転における堅牢性とゼロショット能力を示すことを示した。
コードはhttps://github.com/Tzoulio/ReferGPTで入手できる。
関連論文リスト
- LLM-KT: Aligning Large Language Models with Knowledge Tracing using a Plug-and-Play Instruction [39.59752235090272]
知識追跡問題は、学生が過去の質問応答記録に基づいて次の質問に正しく答えられるかどうかを予測することを目的としている。
我々は、texttttextbfLLM-KTという、KTのための大規模言語モデル(LLM)ベースのフレームワークを提案する。
タスクレベルのアライメントのために,LLMの豊富な知識と強力な推論能力を活用して,LLMをKTに整合させるPlug-and-Play命令を設計する。
モダリティレベルのアライメントのために、従来の手法で学習した複数のモダリティを統合するために、プラグインコンテキストとシーケンスを設計する。
論文 参考訳(メタデータ) (2025-02-05T07:21:49Z) - ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。
追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。
ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Bootstrapping Referring Multi-Object Tracking [14.46285727127232]
マルチオブジェクト追跡(RMOT)の参照は、自然言語表現で表される人間の指示に従って複数のオブジェクトを検出し、追跡することを目的としている。
我々のキーとなる考え方は、差別的な言語単語を導入することで、多目的追跡のタスクをブートストラップすることである。
論文 参考訳(メタデータ) (2024-06-07T16:02:10Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM [23.551036494221222]
Visual Language Tracking (VLT)は、指定されたオブジェクトの正確な追跡のために、ビデオから自然言語記述を統合することで、単一のオブジェクト追跡(SOT)を強化する。
ほとんどのVLTベンチマークは、単一の粒度で注釈付けされており、科学的ガイダンスを提供するための一貫性のあるセマンティックフレームワークが欠如している。
DTLLM-VLTは,環境の多様性を高めるために,多粒度テキストを自動的に生成する。
論文 参考訳(メタデータ) (2024-05-20T16:01:01Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - Referring Multi-Object Tracking [78.63827591797124]
本稿では,Multi-object Tracking (RMOT) と呼ばれる,新しい汎用的な参照理解タスクを提案する。
その中核となる考え方は、言語表現を意味的キューとして利用して、多目的追跡の予測を導くことである。
我々の知る限りでは、ビデオにおける任意の数の参照オブジェクト予測を達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2023-03-06T18:50:06Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。