論文の概要: EDGE-OPD: Internalizing Privileged Context with Evidence Guided On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2605.23493v1
- Date: Fri, 22 May 2026 10:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.321262
- Title: EDGE-OPD: Internalizing Privileged Context with Evidence Guided On-Policy Distillation
- Title(参考訳): EDGE-OPD:Evidence Guided On-Policy Distillationによる主観的文脈の内在化
- Authors: Aristotelis Lazaridis, Dylan Bates, Aman Sharma, Brian King, Vincent Lu, Jack FitzGerald,
- Abstract要約: On-Policy Distillation (OPD)はLLMポストトレーニングパラダイムとして広く注目を集めている。
このアプローチの課題は、特権情報によって、意図よりもモデル行動を変えることができることだ。
EviDence GuidEd On-Policy Distillation (EDGE-OPD)を提案する。
- 参考スコア(独自算出の注目度): 5.310892696470208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-Policy Distillation (OPD) has gained wide attraction as an LLM post-training paradigm due to its effectiveness in improving capabilities without introducing model distribution drift, and consequently, regression in general tasks. On-Policy Self-Distillation (OPSD) is an efficient use-case of OPD, which is appealing as it requires only a single model as a student and teacher, and it also has the benefit of providing privileged context that is a absent at inference time (e.g. a persona, a private fact, or a worked solution) to the teacher during the training process. The challenge in this approach is that the privileged information can change model behavior more than intended: it can modify reasoning, degrade general capabilities, and affect performance indicators like response length, style, or local token preferences. Consequently, OPSD may train the student on side effects rather than a desired, transferable behavior. In this paper, we study this problem in a rare-token/identity setting and propose EviDence GuidEd On-Policy Distillation (EDGE-OPD), a modification of OPSD with two distinct characteristics: a) it uses guided rollouts to inject privileged-context behavior to the student at sampling time, so that the rare target behavior is actually present in the on-policy data, and b) it applies an evidence mask: the student is updated only at token positions where the privileged context supports the sampled token, rather than on every token in the rollout. We empirically show that OPSD (and its variant RLSD, with and without a verifier) completely fail to learn a target identity, while the integration of guided rollouts allows them to succeed. Additionally, mask-region ablations show that the persona signal is localized to the positive-evidence tail, allows us to draw valuable insights about efficient knowledge transfer and preservation of general purpose capabilities.
- Abstract(参考訳): オンポリシィ蒸留(OPD)は, モデル分散ドリフトを導入することなく, 性能向上に有効であり, 一般タスクにおけるレグレッションのため, LLMポストトレーニングパラダイムとして広く注目を集めている。
On-Policy Self-Distillation (OPSD) は、学生や教師として1つのモデルしか必要とせず、教師に推論時に欠如している特権的文脈(ペルソナ、プライベートな事実、あるいは仕事上の解決策など)を提供するという利点があるため、PDの効率的な利用法である。
このアプローチの課題は、特権情報によって、推論を変更したり、一般的な機能を低下させたり、レスポンス長やスタイル、ローカルトークンの好みといったパフォーマンス指標に影響を与えたりすることが可能になることです。
その結果、OPSDは学生に望ましい、移動可能な行動ではなく、副作用を訓練することができる。
本稿では、この問題を希少/同一性設定で検討し、2つの異なる特性を持つOPSDの修正であるEviDence GuidEd On-Policy Distillation (EDGE-OPD)を提案する。
a) ガイド付きロールアウトを用いて、サンプリング時に学生に特権的コンテキストの振る舞いを注入することにより、稀な目標行動が実際に政治上のデータに存在できるようにし、
b)エビデンスマスクを適用する: 学生は、ロールアウト中のすべてのトークンではなく、特権付きコンテキストがサンプリングされたトークンをサポートするトークン位置にのみ更新される。
OPSD(およびその変種RSSD、検証子なし)がターゲットのアイデンティティを全く学ばないのに対して、ガイド付きロールアウトの統合によって成功できることを実証的に示す。
さらに、マスク領域の短縮により、ペルソナ信号が正の証拠テールに局所化されることが示され、効率的な知識伝達と汎用能力の保存に関する貴重な洞察を導き出すことができる。
関連論文リスト
- Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - OGLS-SD: On-Policy Self-Distillation with Outcome-Guided Logit Steering for LLM Reasoning [19.98950359294245]
本研究は,教師の特権分布を自己の自給自足軌道に沿って蒸留することにより,言語モデルによる推論能力の向上を図ることを目的とする。
OPSDの性能向上にもかかわらず,教師と生徒の反応のミスマッチがよく見過ごされがちである。
論文 参考訳(メタデータ) (2026-05-12T17:00:53Z) - Preference-Based Self-Distillation: Beyond KL Matching via Reward Regularization [18.027254451537342]
既存の自己蒸留法は、文脈拡張型教師モデルに向けた学習をKLマッチングに大きく還元する。
textbfPreference-textbfBased textbfSelf-textbfDistillation (textbfPBSD)を提案する。
論文 参考訳(メタデータ) (2026-05-06T15:31:50Z) - The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation [67.26315138466312]
モデルロールアウトから経験的信頼性を推定するキャリブレーション対応のOPDフレームワークであるCaOPDを提案する。
本研究は, 能力蒸留が信頼性を示唆するものではないこと, 信頼性をポストトレーニングの本質的な目的として扱うべきであることを明らかにする。
論文 参考訳(メタデータ) (2026-04-18T04:43:40Z) - Self-Distilled RLVR [57.37526213765131]
特権教師からのみ派生した学習信号が,情報漏洩と不安定な長期学習をもたらすことを示す。
textbfSelf-textbfDistillationを用いたtextbfRLSD(textbfRLVR)を提案する。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
論文 参考訳(メタデータ) (2026-04-03T15:50:07Z) - HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。
しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。
我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:42:03Z) - TAR: Teacher-Aligned Representations via Contrastive Learning for Quadrupedal Locomotion [3.1194372040101928]
強化学習(Reinforcement Learning, RL)による四足歩行運動は、教師/学生のパラダイムを用いて一般的に解決される。
本稿では,自己指導型コントラスト学習による特権情報を活用したTAR(Teacher-Aligned Representations)を提案する。
その結果,最先端のベースラインに比べて2倍のトレーニングが促進され,ピーク性能が得られた。
論文 参考訳(メタデータ) (2025-03-26T12:49:26Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Making Users Indistinguishable: Attribute-wise Unlearning in Recommender
Systems [28.566330708233824]
攻撃者は、訓練中に明示的に遭遇していない場合でも、訓練されたモデルから個人情報、すなわち性別、人種、年齢を抽出することができる。
ユーザのセンシティブな属性を保護するために、Attribute Unlearning (AU)は攻撃性能を低下させ、ターゲット属性を識別不能にする。
論文 参考訳(メタデータ) (2023-10-06T09:36:44Z) - Learning Domain Adaptive Object Detection with Probabilistic Teacher [93.76128726257946]
確率的教師(PT)と呼ばれる,シンプルで効果的な枠組みを提案する。
PTは、段階的に進化する教師から未ラベルの目標データの不確実性を捉え、相互に有利な方法で生徒の学習を指導することを目的としている。
また,不確実性誘導型自己学習を促進するために,新しいエントロピー・フォカル・ロス(EFL)を提案する。
論文 参考訳(メタデータ) (2022-06-13T16:24:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。