論文の概要: Towards Effective Experiential Learning: Dual Guidance for Utilization and Internalization
- arxiv url: http://arxiv.org/abs/2603.24093v1
- Date: Wed, 25 Mar 2026 08:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.217361
- Title: Towards Effective Experiential Learning: Dual Guidance for Utilization and Internalization
- Title(参考訳): 効果的な経験的学習に向けて:利用と内部化のための二重指導
- Authors: Fei Bai, Zhipeng Chen, Chuan Hao, Ming Yang, Ran Tao, Bryan Dai, Wayne Xin Zhao, Jian Yang, Hongteng Xu,
- Abstract要約: トレーニング効率を向上させるために、textbfDual textbfGuidance textbfOptimization(textbfDGO)を提案する。
- 参考スコア(独自算出の注目度): 71.41478888201401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, reinforcement learning~(RL) has become an important approach for improving the capabilities of large language models~(LLMs). In particular, reinforcement learning from verifiable rewards~(RLVR) has emerged as a promising paradigm for reasoning tasks. However, existing RL-based training still remains only a rough approximation to human learning. Human learners leverage both external and internal experience to guide exploration and gradually internalize useful trajectories into stable knowledge. Motivated by this gap, we ask: how can LLMs better utilize and internalize experience during RLVR training? To answer this question, we propose \textbf{D}ual \textbf{G}uidance \textbf{O}ptimization~(\textbf{DGO}), a unified framework that leverages \emph{external} and \emph{internal experience} to improve training effectiveness. Specifically, DGO first constructs an experience bank from previously explored trajectories. The policy then performs exploration under the joint guidance of the experience bank and the model's internal knowledge. The resulting trajectories are further used to refine the experience bank and optimize model parameters, forming a closed loop of experience utilization and internalization. Experiments show that DGO consistently outperforms baseline methods, suggesting that better utilization and internalization of experience lead to more effective reasoning.
- Abstract(参考訳): 近年,強化学習~(RL)は,大規模言語モデル~(LLM)の能力向上のための重要なアプローチとなっている。
特に、検証可能な報酬(RLVR)からの強化学習が、推論タスクの有望なパラダイムとして現れている。
しかし、既存のRLベースのトレーニングは、人間の学習に対する大まかな近似に留まっている。
人間の学習者は、外部と内部の両方の経験を活用して探索をガイドし、徐々に有用な軌道を安定した知識に内部化する。
LLMはどのようにしてRLVRトレーニングで経験をうまく活用し、内部化できますか?
この疑問に答えるために、トレーニング効率を向上させるために、 \emph{external} と \emph{internal experience} を活用する統一フレームワークである \textbf{D}ual \textbf{G}uidance \textbf{O}ptimization~(\textbf{DGO})を提案する。
具体的には、DGOは最初に、以前に調査された軌道から経験銀行を構築する。
この方針は、経験銀行とモデルの内部知識の共同指導の下で調査を行う。
得られた軌道はさらに、経験銀行を洗練させ、モデルパラメータを最適化し、経験利用と内部化の閉ループを形成するために使われる。
実験の結果、DGOはベースライン法を一貫して上回り、より良い利用と経験の内部化がより効果的な推論につながることが示唆された。
関連論文リスト
- Retrieval-Augmented LLM Agents: Learning to Learn from Experience [16.248836438253814]
本研究では,検索対象のLLMエージェントを学習し,検索したトラジェクトリをコンテキスト内で活用する方法について検討する。
最先端のエージェントトレーニングパイプラインよりも優れたロラを用いた,堅牢な教師付き微調整(SFT)レシピを確立した。
その結果,この組み合わせによるタスクの一般化が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2026-03-18T20:45:04Z) - Online Experiential Learning for Language Models [99.90826536842337]
Online Experiential Learning (OEL)は、言語モデルが自身のデプロイメントエクスペリエンスから継続的に改善できるフレームワークである。
OELは、まず、転送可能な経験知識を抽出し、ユーザ側で収集された相互作用軌跡から蓄積する。
テキストベースのゲーム環境において,複数のモデルスケールでOELを評価し,思考と非思考の両バリエーションについて検討した。
論文 参考訳(メタデータ) (2026-03-17T17:57:49Z) - LANPO: Bootstrapping Language and Numerical Feedback for Reinforcement Learning in LLMs [73.27182315028021]
LANPOは、フィードバックの役割をきれいに分離するフレームワークである。
我々の研究は、歴史体験をLLM RLループに統合する堅牢な方法を提供し、より効果的でデータ効率のよい学習エージェントを作成します。
論文 参考訳(メタデータ) (2025-10-18T15:51:19Z) - ExGRPO: Learning to Reason from Experience [82.83309610498446]
検証可能な報酬(RLVR)からの強化学習は、大規模言語モデルの推論能力を改善するための新たなパラダイムである。
標準的なオンライントレーニングは、1回の更新後にロールアウトエクスペリエンスを捨て、計算の非効率性と不安定性につながる。
本稿では,まず,経験価値の効果的な指標であるロールアウトの正しさとエントロピーを考察する。
論文 参考訳(メタデータ) (2025-10-02T17:31:30Z) - Personalized Exercise Recommendation with Semantically-Grounded Knowledge Tracing [54.44838681588145]
ExRecは、セマンティックグラウンドの知識トレースを備えたパーソナライズされたエクササイズレコメンデーションのためのフレームワークである。
ExRecは、新しい、目に見えない質問に頑健に一般化し、解釈可能な学習軌跡を生成することを示す。
論文 参考訳(メタデータ) (2025-07-15T07:54:04Z) - R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning [83.256752220849]
大きな言語モデル(LLM)は強力だが、静的な知識によって幻覚を起こす傾向がある。
内部および外部の知識ソースを適応的に活用するLLMのトレーニングを目的としたフレームワークであるR1-Searcher++を紹介する。
実験の結果,R1-Searcher++は従来のRAG法や推論法より優れ,効率的な検索が可能であった。
論文 参考訳(メタデータ) (2025-05-22T17:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。