論文の概要: Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.10224v1
- Date: Tue, 10 Feb 2026 19:16:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.242382
- Title: Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける指導強化学習のための記憶へのメタ経験の内在化
- Authors: Shiting Huang, Zecheng Li, Yu Zeng, Qingnan Ren, Zhen Fang, Qisheng Su, Kou Shi, Lin Chen, Zehui Chen, Feng Zhao,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高める効果的なアプローチとして登場した。
本稿では,メタ実験学習(Meta-Experience Learning, MEL)を提案する。
MELはベンチマークで一貫した改善を実現し、様々なモデルサイズで3.92%--4.73%のPass@1ゲインを得る。
- 参考スコア(独自算出の注目度): 28.300560850867374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective approach for enhancing the reasoning capabilities of Large Language Models (LLMs). Despite its efficacy, RLVR faces a meta-learning bottleneck: it lacks mechanisms for error attribution and experience internalization intrinsic to the human learning cycle beyond practice and verification, thereby limiting fine-grained credit assignment and reusable knowledge formation. We term such reusable knowledge representations derived from past errors as meta-experience. Based on this insight, we propose Meta-Experience Learning (MEL), a novel framework that incorporates self-distilled meta-experience into the model's parametric memory. Building upon standard RLVR, we introduce an additional design that leverages the LLM's self-verification capability to conduct contrastive analysis on paired correct and incorrect trajectories, identify the precise bifurcation points where reasoning errors arise, and summarize them into generalizable meta-experience. The meta-experience is further internalized into the LLM's parametric memory by minimizing the negative log-likelihood, which induces a language-modeled reward signal that bridges correct and incorrect reasoning trajectories and facilitates effective knowledge reuse. Experimental results demonstrate that MEL achieves consistent improvements on benchmarks, yielding 3.92%--4.73% Pass@1 gains across varying model sizes.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、Large Language Models (LLMs) の推論能力を高める効果的なアプローチとして登場した。
RLVRは、その有効性にもかかわらず、メタラーニングのボトルネックに直面している: エラー帰属のメカニズムが欠如し、人間の学習サイクルに固有の内部化を経験し、練習や検証を超えて、きめ細かいクレジットの割り当てと再利用可能な知識の形成を制限する。
本稿では,過去の誤りをメタ経験として再利用可能な知識表現を述べる。
この知見に基づいて,メタ実験学習(Meta-Experience Learning, MEL)を提案する。
標準のRLVRをベースとして,LLMの自己検証機能を活用して,ペアの正と誤の軌跡のコントラスト解析を行い,推論エラーが発生する正確な分岐点を同定し,それらを一般化可能なメタ経験にまとめる,新たな設計を導入する。
メタエクスペリエンスは、正誤推論軌跡をブリッジし、効果的な知識再利用を促進する言語モデル報酬信号を誘導する負の対数類似度を最小化することにより、LLMのパラメトリックメモリにさらに内部化される。
実験の結果、MELはベンチマークで一貫した改善を達成し、様々なモデルサイズで3.92%--4.73%のPass@1ゲインを得ることが示された。
関連論文リスト
- TRAIL: Joint Inference and Refinement of Knowledge Graphs with Large Language Models [5.678291291711662]
TRAILは思考、推論、インクリメンタルラーニングのための、新しく統合されたフレームワークである。
共同推論と動的KG精製を大きな言語モデルと組み合わせる。
複数のベンチマークでの大規模な実験により、TRAILは既存のKG拡張および検索拡張LDMベースラインを3%から13%上回った。
論文 参考訳(メタデータ) (2025-08-06T14:25:05Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - UIPE: Enhancing LLM Unlearning by Removing Knowledge Related to Forgetting Targets [41.0340052199534]
大規模言語モデル(LLM)は、大規模なデータセットのトレーニング中に必然的に有害な情報を取得する。
既存のアンラーニング手法は、非ラーニングの有効性に論理的関連知識が与える決定的な影響を克服しつつ、対象データを忘れることに重点を置いている。
本研究では,忘れる対象と高い相関性を持つ知識を除去するUIPE(Unlearning Improvement via Extrapolation)を提案する。
論文 参考訳(メタデータ) (2025-03-06T18:40:00Z) - ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。
このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。
実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文 参考訳(メタデータ) (2025-02-16T16:31:00Z) - Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse Reinforcement Learning [7.803423399566274]
Reinforcement Learning from Human Feedbackで訓練された大規模言語モデル(LLM)は、目覚ましい能力を示しているが、その基盤となる報酬関数や意思決定プロセスは不透明である。
本稿では, 逆強化学習(IRL)を用いて暗黙の報酬関数を復元することにより, LLMを解釈する新しい手法を提案する。
我々は,ヒトの嗜好を予測するために,最大85%の精度で報酬モデルを抽出し,様々な大きさの毒性に整合したLSMの実験を行った。
論文 参考訳(メタデータ) (2024-10-16T12:14:25Z) - Learn To Learn More Precisely [30.825058308218047]
より正確に学習すること」は、モデルにデータから正確な目標知識を学習させることを目的としている。
学習知識の一貫性を最大化するために,メタ自己蒸留(Meta Self-Distillation:MSD)という,シンプルで効果的なメタ学習フレームワークを提案する。
MSDは、標準シナリオと拡張シナリオの両方において、数ショットの分類タスクにおいて顕著なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-08-08T17:01:26Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。