論文の概要: GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
- arxiv url: http://arxiv.org/abs/2512.13043v1
- Date: Mon, 15 Dec 2025 07:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.565367
- Title: GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
- Title(参考訳): GTR-Turbo:Merged CheckpointはエージェントVLMトレーニングのための無料教師
- Authors: Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye,
- Abstract要約: 視覚言語モデル(VLM)上に構築されたマルチモーダルエージェントのためのマルチターン強化学習(RL)は、スパース報酬と長期クレジット割り当てによって妨げられる。
近年の方法は、段階的なフィードバックを提供する教師、例えば、ガイドド・シント・強化(GTR)とオン・ポリシィ蒸留(On-Policy Distillation)をクエリすることで報酬を強化する。
本稿では,GTRの高効率アップグレードであるGTR-Turboについて紹介する。
- 参考スコア(独自算出の注目度): 70.77088051192334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn reinforcement learning (RL) for multi-modal agents built upon vision-language models (VLMs) is hampered by sparse rewards and long-horizon credit assignment. Recent methods densify the reward by querying a teacher that provides step-level feedback, e.g., Guided Thought Reinforcement (GTR) and On-Policy Distillation, but rely on costly, often privileged models as the teacher, limiting practicality and reproducibility. We introduce GTR-Turbo, a highly efficient upgrade to GTR, which matches the performance without training or querying an expensive teacher model. Specifically, GTR-Turbo merges the weights of checkpoints produced during the ongoing RL training, and then uses this merged model as a "free" teacher to guide the subsequent RL via supervised fine-tuning or soft logit distillation. This design removes dependence on privileged VLMs (e.g., GPT or Gemini), mitigates the "entropy collapse" observed in prior work, and keeps training stable. Across diverse visual agentic tasks, GTR-Turbo improves the accuracy of the baseline model by 10-30% while reducing wall-clock training time by 50% and compute cost by 60% relative to GTR.
- Abstract(参考訳): 視覚言語モデル(VLM)上に構築されたマルチモーダルエージェントのためのマルチターン強化学習(RL)は、スパース報酬と長期クレジット割り当てによって妨げられる。
近年の方法は、段階的なフィードバックを提供する教師、例えば、ガイドド思考強化(GTR)やオン・ポリシィ蒸留(On-Policy Distillation)を問うことで報酬を強化するが、コストがかかる特権モデルに頼り、実用性や再現性を制限している。
本稿では,GTRの高効率アップグレードであるGTR-Turboについて紹介する。
具体的には、GTR-Turboは、進行中のRLトレーニング中に生成されたチェックポイントの重量をマージし、このマージされたモデルを「無料」の教師として使用して、監督された微調整またはソフトロジット蒸留を通してRLを誘導する。
この設計では、特権付きVLM(例えば、GPTまたはGemini)への依存を排除し、以前の作業で観察された「エントロピー崩壊」を緩和し、トレーニングを安定に保つ。
GTR-Turboは、多様な視覚エージェントタスク全体にわたって、ベースラインモデルの精度を10~30%向上し、ウォールクロックのトレーニング時間を50%削減し、GTRと比較して計算コストを60%削減した。
関連論文リスト
- TDRM: Smooth Reward Models with Temporal Difference for LLM RL and Inference [45.96968721472664]
我々は、よりスムーズで信頼性の高い報酬モデルを学ぶ方法であるTDRMを紹介する。
実験の結果、TD訓練プロセス報酬モデル(PRM)はBest-of-N(最大6.6%)とツリーサーチ(最大23.7%)でのパフォーマンスを向上させることが示された。
論文 参考訳(メタデータ) (2025-09-18T16:14:34Z) - Reinforcement Learning Teachers of Test Time Scaling [21.551446057221185]
LMを推論する主要なユースケースは、新しい学生を蒸留し、将来のRLイテレーションを冷静に開始する教師として機能することである。
我々は,RLの探究課題を回避するために,RLT(Reinforcement-Learned Teachers)の新たなクラスを育成する枠組みを導入する。
RLTは、各問題に対する質問と解決の両方で促され、生徒に合った詳細な説明で単に「接続する」ことを任務とする。
論文 参考訳(メタデータ) (2025-06-10T02:53:24Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones? [58.80794196076336]
大型言語モデル(LLM)の蒸留は、教師による微調整(SFT)を通して教師モデルの応答を伝達するのが一般的である。
本稿では, 応答と報酬の両方を伝達する新しい蒸留パイプラインを提案する。
本手法は,教師と生徒の両方の反応の固有構造を利用した自己教師機構によって擬似回帰を生成する。
論文 参考訳(メタデータ) (2025-02-26T20:50:11Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。