論文の概要: Weak-Driven Learning: How Weak Agents make Strong Agents Stronger
- arxiv url: http://arxiv.org/abs/2602.08222v1
- Date: Mon, 09 Feb 2026 02:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.039916
- Title: Weak-Driven Learning: How Weak Agents make Strong Agents Stronger
- Title(参考訳): 弱み駆動学習 - 弱いエージェントが強いエージェントを強くする方法
- Authors: Zehao Chen, Gongxun Li, Tianxiang Ai, Yifei Li, Zixuan Huang, Wang Zhou, Fuzhen Zhuang, Xianglong Liu, Jianxin Li, Deqing Wang, Yikun Ban,
- Abstract要約: WMSS(Weak Agents Can Make Strong Agents Stronger)は、弱いチェックポイントを利用して継続的な最適化を導くポストトレーニングのパラダイムである。
数学的推論とコード生成データセットの実験は、我々のアプローチで訓練されたエージェントが効果的なパフォーマンス向上を達成することを示す。
- 参考スコア(独自算出の注目度): 46.50703640719333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As post-training optimization becomes central to improving large language models, we observe a persistent saturation bottleneck: once models grow highly confident, further training yields diminishing returns. While existing methods continue to reinforce target predictions, we find that informative supervision signals remain latent in models' own historical weak states. Motivated by this observation, we propose WMSS (Weak Agents Can Make Strong Agents Stronger), a post-training paradigm that leverages weak checkpoints to guide continued optimization. By identifying recoverable learning gaps via entropy dynamics and reinforcing them through compensatory learning, WMSS enables strong agents to improve beyond conventional post-training saturation. Experiments on mathematical reasoning and code generation datasets show that agents trained with our approach achieve effective performance improvements, while incurring zero additional inference cost.
- Abstract(参考訳): トレーニング後の最適化が大きな言語モデルの改善の中心となるにつれて、持続的な飽和ボトルネックが観測される。
既存の手法は、目標予測の強化を続けているが、情報的監視信号は、モデル自体の歴史的弱い状態に潜んでいることが判明した。
本研究の目的は,弱いチェックポイントを利用して継続的な最適化を導くポストトレーニングパラダイムであるWMSS(Weak Agents Can Make Strong Agents Stronger)を提案することである。
エントロピー力学を用いて回復可能な学習ギャップを同定し、補償学習により強化することにより、WMSSは従来の訓練後の飽和を超えて、強力なエージェントを改善できる。
数学的推論とコード生成データセットの実験は、我々のアプローチで訓練されたエージェントが、追加の推論コストをゼロにしながら、効果的なパフォーマンス改善を実現することを示している。
関連論文リスト
- Reinforcement Learning with Backtracking Feedback [12.680874918250069]
フィードバックフィードバックを用いた強化学習(RLBF)を紹介する。
このフレームワークは、BSAFEのような事前の手法に進化する。
RLBFは様々なベンチマークやモデルスケールでの攻撃成功率を大幅に低下させることを示す。
論文 参考訳(メタデータ) (2026-02-09T08:23:19Z) - Co-Evolving Agents: Learning from Failures as Hard Negatives [38.61683607205988]
近年の研究では、自己改善剤を自力で生成し、精製し、自身の軌道で再訓練する研究が進められている。
本稿では、目標エージェントが補助故障エージェントと共同で改善する共進化型エージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-27T09:30:33Z) - Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - On the Diminishing Returns of Complex Robust RAG Training in the Era of Powerful LLMs [85.688901949146]
複雑な堅牢なトレーニング手法の利点は、言語モデルがより強力になるにつれて減少するのだろうか?
モデルキャパシティが増大するにつれて、高度なトレーニング戦略の限界ロバスト性利益は大幅に減少する。
さらなる調査により、より強力なモデルは、単純な訓練体制下であっても、より優れた信頼性キャリブレーション、クロスデータセットの一般化能力、より効果的な注意パターンを自然に示すことが示される。
論文 参考訳(メタデータ) (2025-02-17T03:34:31Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。