論文の概要: AMR-SD: Asymmetric Meta-Reflective Self-Distillation for Token-Level Credit Assignment
- arxiv url: http://arxiv.org/abs/2605.18529v1
- Date: Mon, 18 May 2026 15:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.898116
- Title: AMR-SD: Asymmetric Meta-Reflective Self-Distillation for Token-Level Credit Assignment
- Title(参考訳): AMR-SD:Token-Level Credit Assignmentのための非対称メタリフレクティブ自己蒸留法
- Authors: Zhenlin Wei, Pu Jian, Yingzhuo Deng, Xiaohan Wang, Jiajun Chai, Zhexin Hu, Wei Lin, Shanbin Zhang, Guojun Yin,
- Abstract要約: 非対称メタ反射型自己蒸留(AMR-SD)
非対称なReLUゲートしきい値を持つ因果情報ゲイン(CIG)を導入し、これらの反射をスパースで高精度なトークンレベルの利点変調に変換する。
科学的、数学的、ツール使用のベンチマークによる実験は、AMR-SDが既存のベースラインを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 39.63424981516754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The alignment of Large Language Models (LLMs) for complex reasoning heavily relies on Reinforcement Learning with Verifiable Rewards (RLVR). However, standard algorithms like GRPO apply sequence-level rewards uniformly to all tokens, creating a severe credit-assignment bottleneck. While on-policy self-distillation attempts to resolve this by conditioning a self-teacher on privileged contexts, direct exposure to raw oracle solutions often induces over-conditioned teacher distributions, implicit answer leakage, and late-stage training collapse. To overcome these limitations, we propose Asymmetric Meta-Reflective Self-Distillation (AMR-SD). Instead of conditioning directly on raw reference traces, AMR-SD inserts a reflection bottleneck: it compresses diagnostic signals -- from verifier outcomes, peer rollouts, or reference feedback -- into concise, self-generated Socratic hints and critiques. Furthermore, we introduce Causal Information Gain (CIG) with an asymmetric, ReLU-gated threshold to translate these reflections into sparse, highly precise token-level advantage modulations. Combined with temporal annealing, this mechanism preserves the base environmental reward while filtering out distributional noise. Experiments across scientific, mathematical, and tool-use benchmarks demonstrate that AMR-SD significantly outperforms existing baselines, achieving robust long-horizon stability and successfully preventing late-stage collapse.
- Abstract(参考訳): 複雑な推論のためのLarge Language Models (LLM) のアライメントは、Reinforcement Learning with Verifiable Rewards (RLVR) に大きく依存している。
しかし、GRPOのような標準的なアルゴリズムは全てのトークンにシーケンスレベルの報酬を均一に適用し、深刻なクレジット割り当てボトルネックを生み出します。
政治上の自己蒸留は、特権的な文脈で自己教育者を条件付けすることでこれを解決しようとするが、生のオラクルソリューションへの直接的な露出は、しばしば過条件の教師分布、暗黙の回答リーク、後期の訓練崩壊を引き起こす。
これらの制限を克服するために,非対称なメタ反射型自己蒸留(AMR-SD)を提案する。
検証結果、ピアロールアウト、参照フィードバックなど、診断信号を簡潔で自己生成されたソクラテス的なヒントや批評に圧縮する。
さらに、非対称なReLUゲートしきい値を持つ因果情報ゲイン(CIG)を導入し、これらの反射をスパースで高精度なトークンレベルの利点変調に変換する。
時間的熱処理と組み合わせることで, この機構は分布雑音を除去しながら, 基礎的環境報酬を保ち得る。
科学的、数学的、ツール使用のベンチマークによる実験では、AMR-SDは既存のベースラインを著しく上回り、堅牢な長距離安定性を実現し、後期の崩壊を防ぐことに成功した。
関連論文リスト
- Delayed Homomorphic Reinforcement Learning for Environments with Delayed Feedback [11.866061471514582]
遅延したフィードバックはマルコフの仮定を破り、学習と制御を妨げる。
本稿では,MDP準同型に基づく枠組みを提案する。
MuJoCoベンチマークにおける連続制御タスクの実験は、我々のアルゴリズムが強化ベースのベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2026-04-04T08:38:52Z) - Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning [47.963236269307735]
リランカはRetrieval-Augmented Generationの検索結果の精錬において重要な役割を果たす。
現在のリグレードモデルは通常、ダウンストリーム生成プロセスから切り離された静的な人間アノテートされた関連ラベルに独立して最適化される。
本稿では,LLMの生成品質と直接整合する強化学習フレームワークであるReRanking Preference Optimization(RRPO)を紹介する。
論文 参考訳(メタデータ) (2026-04-02T14:19:47Z) - Know What You Know: Metacognitive Entropy Calibration for Verifiable RL Reasoning [31.629261193485053]
大規模推論モデル(LRM)は、複雑な現実世界のタスクを解くための強力なパラダイムとして登場した。
既存の結果のみのRLVRパイプラインのほとんどは、バイナリの正当性信号にのみ依存しており、モデルの本質的な不確かさをほとんど無視している。
本稿では,メタ認知型エントロピーキャリブレーションフレームワークEGPOを提案する。
論文 参考訳(メタデータ) (2026-02-26T08:40:06Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。