論文の概要: EPIPTrack: Rethinking Prompt Modeling with Explicit and Implicit Prompts for Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2510.13235v1
- Date: Wed, 15 Oct 2025 07:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.547633
- Title: EPIPTrack: Rethinking Prompt Modeling with Explicit and Implicit Prompts for Multi-Object Tracking
- Title(参考訳): EPIPTrack:マルチオブジェクトトラッキングのための明示的および暗黙的プロンプトによるプロンプトモデリングの再考
- Authors: Yukuan Zhang, Jiarui Zhao, Shangqing Nie, Jin Kuang, Shengsheng Wang,
- Abstract要約: EPIPTrackという統合された視覚言語追跡フレームワークを提案する。
EPIPTrackは、動的ターゲットモデリングとセマンティックアライメントのための明示的および暗黙的なプロンプトを利用する。
MOT17、MOT20、Danceの実験は、EPIPTrackが様々なシナリオで既存のトラッカーより優れていることを示した。
- 参考スコア(独自算出の注目度): 10.065921746316642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal semantic cues, such as textual descriptions, have shown strong potential in enhancing target perception for tracking. However, existing methods rely on static textual descriptions from large language models, which lack adaptability to real-time target state changes and prone to hallucinations. To address these challenges, we propose a unified multimodal vision-language tracking framework, named EPIPTrack, which leverages explicit and implicit prompts for dynamic target modeling and semantic alignment. Specifically, explicit prompts transform spatial motion information into natural language descriptions to provide spatiotemporal guidance. Implicit prompts combine pseudo-words with learnable descriptors to construct individualized knowledge representations capturing appearance attributes. Both prompts undergo dynamic adjustment via the CLIP text encoder to respond to changes in target state. Furthermore, we design a Discriminative Feature Augmentor to enhance visual and cross-modal representations. Extensive experiments on MOT17, MOT20, and DanceTrack demonstrate that EPIPTrack outperforms existing trackers in diverse scenarios, exhibiting robust adaptability and superior performance.
- Abstract(参考訳): テキスト記述などのマルチモーダル・セマンティック・キューは、追跡に対する目標知覚を高める強力な可能性を示している。
しかし、既存の手法は大規模言語モデルからの静的なテキスト記述に依存しており、リアルタイムな目標状態の変化への適応性や幻覚の傾向に欠ける。
これらの課題に対処するために、動的ターゲットモデリングとセマンティックアライメントのための明示的および暗黙的なプロンプトを利用する、EPIPTrackという統合されたマルチモーダル視覚言語追跡フレームワークを提案する。
具体的には、空間運動情報を自然言語記述に変換することで、時空間ガイダンスを提供する。
Implicitプロンプトは擬似単語と学習可能な記述子を組み合わせることで、外観属性をキャプチャする個別の知識表現を構築する。
どちらのプロンプトも、ターゲット状態の変化に対応するためにCLIPテキストエンコーダを介して動的調整を行う。
さらに、視覚的および横断的な表現を強化するための識別的特徴拡張器を設計する。
MOT17、MOT20、DanceTrackの大規模な実験では、EPIPTrackはさまざまなシナリオにおいて既存のトラッカーよりも優れ、堅牢な適応性と優れたパフォーマンスを示している。
関連論文リスト
- Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - ATCTrack: Aligning Target-Context Cues with Dynamic Target States for Robust Vision-Language Tracking [0.6143225301480709]
視覚言語追跡は、初期フレームに提供されるテンプレートパッチと言語記述を用いて、ビデオシーケンス内の対象物を特定することを目的としている。
ロバストなトラッキングを実現するためには、ターゲットの特徴を特徴付けるだけでなく、ターゲットに関連するコンテキストの特徴を活用することが不可欠である。
動的ターゲット状態に適応したマルチモーダルキューが得られるATCTrackという新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2025-07-26T09:05:12Z) - Multimodal Prompt Alignment for Facial Expression Recognition [24.470095812039286]
MPA-FERは、引き起こされた視覚的特徴の学習プロセスに対して、きめ細かいセマンティックガイダンスを提供する。
我々のフレームワークは、FERベンチマークの3つのベンチマークデータセット上で最先端の手法より優れています。
論文 参考訳(メタデータ) (2025-06-26T05:28:57Z) - CLDTracker: A Comprehensive Language Description for Visual Tracking [17.858934583542325]
我々は、堅牢な視覚追跡のための新しい包括的言語記述フレームワークであるCLDTrackerを提案する。
トラッカーはテキストと視覚分岐からなる二重ブランチアーキテクチャを導入している。
6つの標準VOTベンチマークの実験は、CLDTrackerがSOTAのパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-29T17:39:30Z) - Multi-Granularity Language-Guided Training for Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。
実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。
我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文 参考訳(メタデータ) (2023-03-06T06:04:46Z) - Generalizing Multiple Object Tracking to Unseen Domains by Introducing
Natural Language Representation [33.03600813115465]
本稿では,領域一般化能力を高めるために,視覚的MOTモデルに自然言語表現を導入することを提案する。
この問題に対処するために、視覚的コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。
VLMは生成した視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトとを結合して、インスタンスレベルの擬似テキスト記述を取得する。
また,MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2022-12-03T07:57:31Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.88106370842883]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。