論文の概要: ReasoningTrack: Chain-of-Thought Reasoning for Long-term Vision-Language Tracking
- arxiv url: http://arxiv.org/abs/2508.05221v1
- Date: Thu, 07 Aug 2025 10:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.799746
- Title: ReasoningTrack: Chain-of-Thought Reasoning for Long-term Vision-Language Tracking
- Title(参考訳): ReasoningTrack: 長期視線追跡のためのChain-of-Thought Reasoning
- Authors: Xiao Wang, Liye Jin, Xufeng Lou, Shiao Wang, Lan Chen, Bo Jiang, Zhipeng Zhang,
- Abstract要約: 本稿では,事前学習型視覚言語モデルQwen2.5-VLに基づく推論に基づく視覚言語追跡フレームワークReasoningTrackを提案する。
更新された言語記述を埋め込み、それらを視覚機能とともにトラッキングバックボーンネットワークに統合する。
さらに,200の動画シーケンスを含むTNLLTと呼ばれる大規模長期視覚言語追跡ベンチマークデータセットを提案する。
- 参考スコア(独自算出の注目度): 18.491855733401742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language tracking has received increasing attention in recent years, as textual information can effectively address the inflexibility and inaccuracy associated with specifying the target object to be tracked. Existing works either directly fuse the fixed language with vision features or simply modify using attention, however, their performance is still limited. Recently, some researchers have explored using text generation to adapt to the variations in the target during tracking, however, these works fail to provide insights into the model's reasoning process and do not fully leverage the advantages of large models, which further limits their overall performance. To address the aforementioned issues, this paper proposes a novel reasoning-based vision-language tracking framework, named ReasoningTrack, based on a pre-trained vision-language model Qwen2.5-VL. Both SFT (Supervised Fine-Tuning) and reinforcement learning GRPO are used for the optimization of reasoning and language generation. We embed the updated language descriptions and feed them into a unified tracking backbone network together with vision features. Then, we adopt a tracking head to predict the specific location of the target object. In addition, we propose a large-scale long-term vision-language tracking benchmark dataset, termed TNLLT, which contains 200 video sequences. 20 baseline visual trackers are re-trained and evaluated on this dataset, which builds a solid foundation for the vision-language visual tracking task. Extensive experiments on multiple vision-language tracking benchmark datasets fully validated the effectiveness of our proposed reasoning-based natural language generation strategy. The source code of this paper will be released on https://github.com/Event-AHU/Open_VLTrack
- Abstract(参考訳): 近年,対象対象物を特定することで,テキスト情報の柔軟性や不正確性に効果的に対応できることから,視覚言語追跡が注目されている。
既存の作業は、固定された言語に直接視覚的特徴を融合させるか、単に注意を払って変更するかのいずれかだが、そのパフォーマンスはまだ限られている。
近年、追跡中にターゲットの変動に適応するためにテキスト生成を利用することを研究している研究者もいるが、これらの研究はモデルの推論過程に関する洞察を与えず、大きなモデルの利点を十分に活用していないため、全体的な性能がさらに制限される。
上記の課題に対処するため,本稿では,事前学習された視覚言語モデルQwen2.5-VLに基づく推論に基づく新たな視覚言語追跡フレームワークReasoningTrackを提案する。
SFT(Supervised Fine-Tuning)と強化学習GRPOは、推論と言語生成の最適化に使用される。
更新された言語記述を埋め込み、それらを視覚機能とともにトラッキングバックボーンネットワークに統合する。
次に,対象物体の特定位置を予測するために,トラッキングヘッドを採用する。
さらに,200の動画シーケンスを含むTNLLTと呼ばれる大規模長期視覚言語追跡ベンチマークデータセットを提案する。
20のベースラインビジュアルトラッカーは、このデータセットで再トレーニングされ、評価される。
複数の視覚言語追跡ベンチマークデータセットの大規模な実験は、提案した推論に基づく自然言語生成戦略の有効性を十分に検証した。
この論文のソースコードはhttps://github.com/Event-AHU/Open_VLTrackで公開される。
関連論文リスト
- ATCTrack: Aligning Target-Context Cues with Dynamic Target States for Robust Vision-Language Tracking [0.6143225301480709]
視覚言語追跡は、初期フレームに提供されるテンプレートパッチと言語記述を用いて、ビデオシーケンス内の対象物を特定することを目的としている。
ロバストなトラッキングを実現するためには、ターゲットの特徴を特徴付けるだけでなく、ターゲットに関連するコンテキストの特徴を活用することが不可欠である。
動的ターゲット状態に適応したマルチモーダルキューが得られるATCTrackという新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2025-07-26T09:05:12Z) - CLDTracker: A Comprehensive Language Description for Visual Tracking [17.858934583542325]
我々は、堅牢な視覚追跡のための新しい包括的言語記述フレームワークであるCLDTrackerを提案する。
トラッカーはテキストと視覚分岐からなる二重ブランチアーキテクチャを導入している。
6つの標準VOTベンチマークの実験は、CLDTrackerがSOTAのパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-29T17:39:30Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model [29.702895846058265]
Vision-Language(VL)トラッカーは、様々なアプリケーションにおける汎用性を高めるために、追加の自然言語記述を活用することを提案している。
VLトラッカーは、追跡性能の点で依然としてState-of-The-Art (SoTA)ビジュアルトラッカーより劣っている。
本稿では,MLLM(Multimodal Large Language Model)における多言語知識の豊富な活用を目的としたChatTrackerを提案し,高品質な言語記述を生成する。
論文 参考訳(メタデータ) (2024-11-04T02:43:55Z) - Multi-Granularity Language-Guided Training for Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - Towards More Flexible and Accurate Object Tracking with Natural
Language: Algorithms and Benchmark [46.691218019908746]
自然言語の仕様による追跡は、その言語記述に基づいてビデオシーケンス内のターゲットオブジェクトを見つけることを目的とした新しい上昇研究トピックです。
大規模データセットを含む,言語別追跡に特化した新たなベンチマークを提案する。
また,TNL2Kには,対象追跡タスク,すなわち対向サンプルとモダリティスイッチの2つの新しい課題を導入する。
論文 参考訳(メタデータ) (2021-03-31T00:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。