論文の概要: Privileged Information Distillation for Language Models
- arxiv url: http://arxiv.org/abs/2602.04942v1
- Date: Wed, 04 Feb 2026 18:46:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.567909
- Title: Privileged Information Distillation for Language Models
- Title(参考訳): 言語モデルのためのプリビリード情報蒸留
- Authors: Emiliano Penaloza, Dheeraj Vattikonda, Nicolas Gontier, Alexandre Lacoste, Laurent Charlin, Massimo Caccia,
- Abstract要約: 訓練時特権情報(PI)は、言語モデルが失敗する可能性のあるタスクを成功させることを可能にする。
PIで学んだ能力を、推論時間なしで行動しなければならないポリシーに転送することは、依然として根本的な課題である。
同モデルを用いてPI条件の教師と無条件の学生を同時に訓練する共同教師学生目標である-Distillを紹介する。
また,学生とPI条件の教師との間には,逆KLペナルティを持つ強化学習(RL)を用いた学習方法として,OPSD(On-Policy Self-Distillation)を導入する。
- 参考スコア(独自算出の注目度): 45.6813438056167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training-time privileged information (PI) can enable language models to succeed on tasks they would otherwise fail, making it a powerful tool for reinforcement learning in hard, long-horizon settings. However, transferring capabilities learned with PI to policies that must act without it at inference time remains a fundamental challenge. We study this problem in the context of distilling frontier models for multi-turn agentic environments, where closed-source systems typically hide their internal reasoning and expose only action trajectories. This breaks standard distillation pipelines, since successful behavior is observable but the reasoning process is not. For this, we introduce π-Distill, a joint teacher-student objective that trains a PI-conditioned teacher and an unconditioned student simultaneously using the same model. Additionally, we also introduce On-Policy Self-Distillation (OPSD), an alternative approach that trains using Reinforcement Learning (RL) with a reverse KL-penalty between the student and the PI-conditioned teacher. We show that both of these algorithms effectively distill frontier agents using action-only PI. Specifically we find that π-Distill and in some cases OPSD, outperform industry standard practices (Supervised finetuning followed by RL) that assume access to full Chain-of-Thought supervision across multiple agentic benchmarks, models, and forms of PI. We complement our results with extensive analysis that characterizes the factors enabling effective learning with PI, focusing primarily on π-Distill and characterizing when OPSD is competitive.
- Abstract(参考訳): トレーニング時特権情報(PI)は、言語モデルが失敗する可能性のあるタスクを成功させることを可能にする。
しかし、PIで学んだ能力を推論時に無関係に行動しなければならないポリシーに転送することは、依然として根本的な課題である。
本研究では, マルチターンエージェント環境におけるフロンティアモデルの蒸留の文脈において, クローズドソースシステムは内部の推論を隠蔽し, 動作軌跡のみを公開する。
これは、正常な蒸留パイプラインを壊す。これは、成功した振る舞いは観測可能であるが、推論プロセスは観察できないためである。
そこで我々は,PI条件の教師と無条件の生徒を同じモデルで同時に訓練する,共同教師/学生の目的であるπ-Distillを紹介した。
また,学生とPI条件の教師との間には,逆KL(Reinforcement Learning, 強化学習)を訓練する代替手法として, OPSD(On-Policy Self-Distillation)を導入する。
いずれのアルゴリズムも,アクションのみのPIを用いてフロンティア剤を効果的に蒸留することを示した。
具体的には、π-DistillとOPSDは、複数のエージェントベンチマーク、モデル、PIの形式にまたがる完全なチェーン・オブ・ソート管理へのアクセスを前提とした業界標準のプラクティス(Supervised finetuning、RL)より優れています。
本研究は,OPSDが競合する際のπ-Distillと特徴付けを中心に,PIによる効果的な学習を可能にする要因を特徴付ける広範囲な分析により,その結果を補完する。
関連論文リスト
- OVD: On-policy Verbal Distillation [47.727229201069555]
On-policy Verbal Distillation (OVD) は、トークンレベルの確率マッチングを軌道マッチングに置き換えるメモリ効率の高いフレームワークである。
OVDは、言語フィードバックを持つ教師モデルからのオンライン蒸留を可能にしながら、メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2026-01-29T16:48:14Z) - Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models [44.041109669153506]
On-Policy Self-Distillation (OPSD) は、教師と学生の両方がひとつのモデルで、異なるコンテキストを条件付けして機能するフレームワークである。
複数の数学的推論ベンチマークにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2026-01-26T17:56:50Z) - HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。
しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。
我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:42:03Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Vintix: Action Model via In-Context Reinforcement Learning [78.11130335098936]
In-context reinforcement learning を通じて振る舞いを学習できる固定されたクロスドメインモデルを導入することで ICRL のスケールアップに向けた第一歩を提示する。
ICRLを促進するために設計されたフレームワークであるアルゴリズム蒸留は、多目的な作用モデルを構築するために、専門家蒸留に代わる魅力的な、競争力のある代替手段を提供することを示した。
論文 参考訳(メタデータ) (2025-01-31T18:57:08Z) - Causal Reinforcement Learning using Observational and Interventional
Data [14.856472820492364]
環境の因果モデルを効率的に学習することは、PMDPで動作するモデルRLエージェントの重要な課題である。
学習エージェントが環境と直接対話することでオンライン体験を収集できるシナリオを考察する。
オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか?
論文 参考訳(メタデータ) (2021-06-28T06:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。