論文の概要: GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
- arxiv url: http://arxiv.org/abs/2512.13043v1
- Date: Mon, 15 Dec 2025 07:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.565367
- Title: GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
- Title(参考訳): GTR-Turbo:Merged CheckpointはエージェントVLMトレーニングのための無料教師
- Authors: Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye,
- Abstract要約: 視覚言語モデル(VLM)上に構築されたマルチモーダルエージェントのためのマルチターン強化学習(RL)は、スパース報酬と長期クレジット割り当てによって妨げられる。
近年の方法は、段階的なフィードバックを提供する教師、例えば、ガイドド・シント・強化(GTR)とオン・ポリシィ蒸留(On-Policy Distillation)をクエリすることで報酬を強化する。
本稿では,GTRの高効率アップグレードであるGTR-Turboについて紹介する。
- 参考スコア(独自算出の注目度): 70.77088051192334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn reinforcement learning (RL) for multi-modal agents built upon vision-language models (VLMs) is hampered by sparse rewards and long-horizon credit assignment. Recent methods densify the reward by querying a teacher that provides step-level feedback, e.g., Guided Thought Reinforcement (GTR) and On-Policy Distillation, but rely on costly, often privileged models as the teacher, limiting practicality and reproducibility. We introduce GTR-Turbo, a highly efficient upgrade to GTR, which matches the performance without training or querying an expensive teacher model. Specifically, GTR-Turbo merges the weights of checkpoints produced during the ongoing RL training, and then uses this merged model as a "free" teacher to guide the subsequent RL via supervised fine-tuning or soft logit distillation. This design removes dependence on privileged VLMs (e.g., GPT or Gemini), mitigates the "entropy collapse" observed in prior work, and keeps training stable. Across diverse visual agentic tasks, GTR-Turbo improves the accuracy of the baseline model by 10-30% while reducing wall-clock training time by 50% and compute cost by 60% relative to GTR.
- Abstract(参考訳): 視覚言語モデル(VLM)上に構築されたマルチモーダルエージェントのためのマルチターン強化学習(RL)は、スパース報酬と長期クレジット割り当てによって妨げられる。
近年の方法は、段階的なフィードバックを提供する教師、例えば、ガイドド思考強化(GTR)やオン・ポリシィ蒸留(On-Policy Distillation)を問うことで報酬を強化するが、コストがかかる特権モデルに頼り、実用性や再現性を制限している。
本稿では,GTRの高効率アップグレードであるGTR-Turboについて紹介する。
具体的には、GTR-Turboは、進行中のRLトレーニング中に生成されたチェックポイントの重量をマージし、このマージされたモデルを「無料」の教師として使用して、監督された微調整またはソフトロジット蒸留を通してRLを誘導する。
この設計では、特権付きVLM(例えば、GPTまたはGemini)への依存を排除し、以前の作業で観察された「エントロピー崩壊」を緩和し、トレーニングを安定に保つ。
GTR-Turboは、多様な視覚エージェントタスク全体にわたって、ベースラインモデルの精度を10~30%向上し、ウォールクロックのトレーニング時間を50%削減し、GTRと比較して計算コストを60%削減した。
関連論文リスト
- Reinforcement-aware Knowledge Distillation for LLM Reasoning [63.53679456364683]
強化学習(Reinforcement Learning, RL)ポストトレーニングは、最近、大型言語モデル(LLM)の長いチェーン・オブ・プリーティングにおいて、進歩をもたらした。
既存の知識蒸留法の多くは、教師による微調整(SFT)のために設計されており、固定された教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存している。
本稿では,RLにおける選択的な模倣を行うRL-aware distillation (RLAD)を提案する。
論文 参考訳(メタデータ) (2026-02-26T00:20:39Z) - TSR: Trajectory-Search Rollouts for Multi-Turn RL of LLM Agents [31.795232330674413]
本稿では,TSR(Trajectory-Search Rollouts)を提案する。
我々は、最高のN、ビームルックサーチ、PPOとGRPOを組み合わせてTSRをインスタンス化し、最大15%のパフォーマンス向上と、Sokoban、FrozenLake、WebShopタスクでのより安定した学習を1回のトレーニング計算で達成する。
論文 参考訳(メタデータ) (2026-02-12T09:49:24Z) - Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - TDRM: Smooth Reward Models with Temporal Difference for LLM RL and Inference [45.96968721472664]
我々は、よりスムーズで信頼性の高い報酬モデルを学ぶ方法であるTDRMを紹介する。
実験の結果、TD訓練プロセス報酬モデル(PRM)はBest-of-N(最大6.6%)とツリーサーチ(最大23.7%)でのパフォーマンスを向上させることが示された。
論文 参考訳(メタデータ) (2025-09-18T16:14:34Z) - Reinforcement Learning Teachers of Test Time Scaling [21.551446057221185]
LMを推論する主要なユースケースは、新しい学生を蒸留し、将来のRLイテレーションを冷静に開始する教師として機能することである。
我々は,RLの探究課題を回避するために,RLT(Reinforcement-Learned Teachers)の新たなクラスを育成する枠組みを導入する。
RLTは、各問題に対する質問と解決の両方で促され、生徒に合った詳細な説明で単に「接続する」ことを任務とする。
論文 参考訳(メタデータ) (2025-06-10T02:53:24Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones? [58.80794196076336]
大型言語モデル(LLM)の蒸留は、教師による微調整(SFT)を通して教師モデルの応答を伝達するのが一般的である。
本稿では, 応答と報酬の両方を伝達する新しい蒸留パイプラインを提案する。
本手法は,教師と生徒の両方の反応の固有構造を利用した自己教師機構によって擬似回帰を生成する。
論文 参考訳(メタデータ) (2025-02-26T20:50:11Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。