論文の概要: Learning with Rare Success but Rich Feedback via Reflection-Enhanced Self-Distillation
- arxiv url: http://arxiv.org/abs/2605.12741v1
- Date: Tue, 12 May 2026 20:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.684018
- Title: Learning with Rare Success but Rich Feedback via Reflection-Enhanced Self-Distillation
- Title(参考訳): 反射強化自己蒸留による希少な成功とリッチフィードバックによる学習
- Authors: Yuwei Zhang, Sha Li, Changlong Yu, Qin Lu, Shuowei Jin, Chengyu Dong, Haoran Liu, Ilgee Hong, Xintong Li, Zhenyu Shi, Bing Yin, Jingbo Shang,
- Abstract要約: 本稿では、生の障害フィードバックを補正管理のアクティブソースに変換するフレームワークであるReflection-Enhanced Self-Distillation(RESD)を紹介する。
RESDは、局所的なエラーを診断するために振り返りリフレクションを生成し、持続的なグローバルなプレイブックをキュレートすることで、障害の軌跡を解釈する。
複数の連続学習課題に対する実証的な評価は、RESDが標準の自己蒸留ベースラインを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 71.16738415436458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enabling Large Language Models (LLMs) to continuously improve from environmental interactions is a central challenge in post-training. While on-policy self-distillation offers a promising paradigm, existing methods predominantly treat environmental feedback as a passive conditioning signal. Consequently, they heavily rely on successful demonstrations and struggle to learn in rare-success regimes. To bridge this gap, we introduce Reflection-Enhanced Self-Distillation (RESD), a framework that transforms raw failure feedback into an active source of corrective supervision. Instead of passively appending feedback, RESD interprets failed trajectories by generating retrospective reflections to diagnose local errors, and curates a persistent global playbook to preserve reusable lessons across training steps. The enriched context enables the self-teacher to provide actionable token-level supervision even in the absence of successful rollouts. Empirical evaluations on multiple continual learning tasks demonstrate that RESD substantially outperforms standard self-distillation baselines. Furthermore, RESD achieves significantly faster early-stage improvement than GRPO with $8\times$ samples using only a single rollout per prompt, highlighting its superior interaction efficiency.
- Abstract(参考訳): 環境相互作用から継続的に改善するための大規模言語モデル(LLM)の導入は、ポストトレーニングにおける中心的な課題である。
オンライン自己蒸留は有望なパラダイムを提供するが、既存の手法は主に環境フィードバックを受動的条件付け信号として扱う。
その結果、彼らは成功した実演に大きく依存し、希少な教育体制で学ぶのに苦労した。
このギャップを埋めるために、私たちは、生の失敗フィードバックを修正管理のアクティブソースに変換するフレームワークであるReflection-Enhanced Self-Distillation(RESD)を紹介します。
受動的にフィードバックを付加する代わりに、RESDは、ローカルエラーを診断するためにリフレクションリフレクションを生成することによって、障害の軌跡を解釈し、トレーニングステップ全体にわたって再利用可能なレッスンを保存するために、永続的なグローバルプレイブックをキュレートする。
リッチなコンテキストにより、自己学習者は、ロールアウトが成功していない場合でも、アクション可能なトークンレベルの監視を提供することができる。
複数の連続学習課題に対する実証的な評価は、RESDが標準の自己蒸留ベースラインを大幅に上回っていることを示している。
さらに、RESDは1プロンプトにつき1回だけロールアウトするだけで、GRPOよりもはるかに高速な早期改善を実現し、相互作用効率が向上した。
関連論文リスト
- RePO-VLA: Recovery-Driven Policy Optimization for Vision-Language-Action Models [90.39703013636868]
RePO-VLAは、リカバリ駆動のポリシー最適化フレームワークである。
成功、回復、失敗の軌跡に異なる役割を割り当てる。
対人的な成功は、平均で20%から75%、実世界の規模で80%まで上昇する。
論文 参考訳(メタデータ) (2026-05-10T08:24:05Z) - Recursive Think-Answer Process for LLMs and VLMs [54.52289112197118]
R-TAP(Recursive Think-Answer Process)を提案する。
R-TAPにより、モデルは反復的推論サイクルに参加し、より正確な答えを生成することができる。
R-TAP強化モデルが従来のシングルパス法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-03-02T17:20:10Z) - Experiential Reinforcement Learning [22.545003569634982]
経験的強化学習(英語: Experiential Reinforcement Learning, ERL)は、学習プロセスに明示的な経験的回帰・統合のループを組み込む訓練パラダイムである。
ERLは、強い強化学習ベースラインよりも学習効率と最終性能を一貫して改善する。
これらの結果は、明示的な自己回帰を政策訓練に統合することは、フィードバックを耐久性のある行動改善に変換するための実践的なメカニズムをもたらすことを示唆している。
論文 参考訳(メタデータ) (2026-02-15T01:23:48Z) - Learning Robust Reasoning through Guided Adversarial Self-Play [32.87933476043378]
本稿では,GASP(Guided Adrial Self-Play)を導入した。
人間のラベルや外部教師がいなければ、GASPは単一のモデル内で敵のセルフプレイゲームを形成する。
自己生成修復の模倣用語であるin-distriion repair guidanceは、以前取得した機能を保持しながら回復確率を高める。
論文 参考訳(メタデータ) (2026-01-30T02:23:31Z) - Reinforcement Learning via Self-Distillation [37.078107691613155]
大規模言語モデルは、コードや数学などの検証可能な領域で強化学習を施して、ポストトレーニングされている。
検証可能な報酬(RLVR)を用いた強化学習の現在の手法は、試みごとにスカラーな結果報酬からのみ学習し、深刻な信用割り当てボトルネックを生み出す。
我々は、この設定をリッチフィードバックによる強化学習として定式化し、自己蒸留政策最適化(SDPO)を導入する。
SDPOは、トークン化されたフィードバックを、外部教師や明示的な報酬モデルなしで、密集した学習信号に変換する。
論文 参考訳(メタデータ) (2026-01-28T17:45:12Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - Improving Self-supervised Learning with Automated Unsupervised Outlier
Arbitration [83.29856873525674]
本稿では,自己教師型学習のためのビューサンプリング問題を対象とした,軽量潜在変数モデル UOTA を提案する。
本手法は,多くの主流な自己指導型学習手法に直接応用する。
論文 参考訳(メタデータ) (2021-12-15T14:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。