論文の概要: R1-Track: Direct Application of MLLMs to Visual Object Tracking via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.21980v1
- Date: Fri, 27 Jun 2025 07:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.123803
- Title: R1-Track: Direct Application of MLLMs to Visual Object Tracking via Reinforcement Learning
- Title(参考訳): R1-Track:強化学習による視覚的物体追跡へのMLLMの直接的応用
- Authors: Biao Wang, Wenwen Li,
- Abstract要約: 単一のオブジェクト追跡は、その後のビデオフレームにおけるターゲットのスケールを連続的にローカライズし、推定することを目的としている。
Qwen2.5-VLはイメージペア間のテンプレートマッチングに苦労している。
グループ相対政策最適化(GRPO)強化学習法を用いてQwen2.5-VLを微調整した。
結果として得られたR1-Trackは、GOT-10kベンチマークで顕著な性能を達成した。
- 参考スコア(独自算出の注目度): 5.824239448669772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual single object tracking aims to continuously localize and estimate the scale of a target in subsequent video frames, given only its initial state in the first frame. This task has traditionally been framed as a template matching problem, evolving through major phases including correlation filters, two-stream networks, and one-stream networks with significant progress achieved. However, these methods typically require explicit classification and regression modeling, depend on supervised training with large-scale datasets, and are limited to the single task of tracking, lacking flexibility. In recent years, multi-modal large language models (MLLMs) have advanced rapidly. Open-source models like Qwen2.5-VL, a flagship MLLMs with strong foundational capabilities, demonstrate excellent performance in grounding tasks. This has spurred interest in applying such models directly to visual tracking. However, experiments reveal that Qwen2.5-VL struggles with template matching between image pairs (i.e., tracking tasks). Inspired by deepseek-R1, we fine-tuned Qwen2.5-VL using the group relative policy optimization (GRPO) reinforcement learning method on a small-scale dataset with a rule-based reward function. The resulting model, R1-Track, achieved notable performance on the GOT-10k benchmark. R1-Track supports flexible initialization via bounding boxes or text descriptions while retaining most of the original model's general capabilities. And we further discuss potential improvements for R1-Track. This rough technical report summarizes our findings as of May 2025.
- Abstract(参考訳): 視覚的な単一オブジェクト追跡は、最初のフレームで初期状態のみを考慮し、その後のビデオフレームにおけるターゲットのスケールを連続的にローカライズし、推定することを目的としている。
従来、このタスクはテンプレートマッチングの問題としてフレーム化され、相関フィルタ、2ストリームネットワーク、および大きな進歩を遂げた1ストリームネットワークを含む主要なフェーズを通して進化してきた。
しかしながら、これらの手法は通常、明示的な分類と回帰モデリングを必要とし、大規模データセットによる教師付きトレーニングに依存し、単一のトラッキングタスクに限定され、柔軟性に欠ける。
近年,マルチモーダル大規模言語モデル (MLLM) が急速に進歩している。
強力な基礎能力を持つフラッグシップMLLMであるQwen2.5-VLのようなオープンソースモデルは、接地タスクにおいて優れたパフォーマンスを示している。
これにより、このようなモデルを視覚的追跡に直接適用することへの関心が高まった。
しかし、Qwen2.5-VLは画像ペア間のテンプレートマッチング(つまりトラッキングタスク)に苦戦している。
グループ相対政策最適化(GRPO)強化学習法を用いてQwen2.5-VLをルールベース報酬関数付き小型データセット上で微調整した。
結果として得られたR1-Trackは、GOT-10kベンチマークで顕著な性能を達成した。
R1-Trackは、バウンディングボックスやテキスト記述によるフレキシブル初期化をサポートしながら、オリジナルのモデルの一般的な機能のほとんどを維持している。
また、R1-Trackの潜在的な改善についても論じる。
この大雑把な技術的報告は、2025年5月時点での私たちの調査結果を要約している。
関連論文リスト
- Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。
我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。
Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-18T14:08:03Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Simple Cues Lead to a Strong Multi-Object Tracker [3.7189423451031356]
マルチオブジェクト追跡のための新しいタイプのトラッキング・バイ・ディテクト(TbD)を提案する。
単純な動作モデルと外観特徴を組み合わせることで,強い追跡結果が得られることを示す。
私たちのトラッカーは、MOT17、MOT20、BDD100k、DanceTrackの4つの公開データセットに一般化され、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-06-09T17:55:51Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。