論文の概要: ReAD: Reinforcement-Guided Capability Distillation for Large Language Models
- arxiv url: http://arxiv.org/abs/2605.11290v1
- Date: Mon, 11 May 2026 22:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.454454
- Title: ReAD: Reinforcement-Guided Capability Distillation for Large Language Models
- Title(参考訳): ReAD: 大規模言語モデルのための強化誘導機能拡張
- Authors: Xueqi Cheng, Xugui Zhou, Tyler Derr, Yushun Dong,
- Abstract要約: 固定トークン予算下でのキャパシティ蒸留について検討し、2つの一貫したパターンを同定する。
Reinforcement-guided cApability Distillation frameworkであるREADを提案する。
- 参考スコア(独自算出の注目度): 69.00808591939524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capability distillation applies knowledge distillation to selected model capabilities, aiming to compress a large language model (LLM) into a smaller one while preserving the abilities needed for a downstream task. However, most existing methods treat capabilities as independent training targets and overlook how improving one capability can reshape the student's broader capability profile, especially when multiple abilities jointly determine task success. We study capability distillation under a fixed token budget and identify two consistent patterns: distillation induces systematic, budget-dependent cross-capability transfer, and additional budget often brings limited task-relevant gains while sometimes degrading other useful abilities. Building on these insights, we propose ReAD, a Reinforcement-guided cApability Distillation framework that explicitly accounts for capability interdependence. ReAD first infers task-essential capabilities, then generates capability-targeted supervision on the fly, and finally uses an uncertainty-aware contextual bandit to adaptively allocate the distillation budget based on expected utility gains. Extensive experiments show that ReAD improves downstream utility under the same token budget while reducing harmful spillover and wasted distillation effort compared to strong baselines. Our code is publicly available at https://github.com/LabRAI/ReAD.
- Abstract(参考訳): 能力蒸留は、下流タスクに必要な能力を維持しながら、大きな言語モデル(LLM)を小さく圧縮することを目的として、選択されたモデル能力に知識蒸留を適用する。
しかし、既存のほとんどの手法は、能力が独立した訓練対象として扱われており、特に複数の能力が共同でタスクの成功を決定する場合、ひとつの能力の改善が学生のより広い能力プロファイルをいかに形作るかを見落としている。
固定トークン予算下での蒸留能力について検討し, 蒸留により組織的, 予算に依存したクロスキャパビリティ・トランスファーが誘導され, 追加予算は, 時として他の有用な能力の低下を招きながら, 限られたタスク関連ゲインをもたらすことが多かった。
これらの知見に基づいて,ReADを提案する。Reinforcement-guided cApability Distillation framework。
ReADはまずタスク・エッセンシャルな能力を推測し、その後、機能目標の監視をオンザフライで生成し、最後に不確実性を認識したコンテキスト・バンディットを使用して、期待されるユーティリティ・ゲインに基づいて蒸留予算を適応的に割り当てる。
広範囲にわたる実験の結果,READは同じトークン予算の下で下流の実用性を改善しつつ,有害な流出や蒸留を強いベースラインと比較して削減することがわかった。
私たちのコードはhttps://github.com/LabRAI/READ.comで公開されています。
関連論文リスト
- Artificial Jagged Intelligence as Uneven Optimization Energy Allocation Capability Concentration, Redistribution, and Optimization Governance [3.719121868494767]
人工ジャグインテリジェンス(Artificial Jagged Intelligence, AJI)は、大規模学習システムにおいて、他の領域では弱さや脆さを保ちながら、強力な局所的な能力を示す繰り返しパターンである。
本稿では,最適化圧力の不均一なアロケーションとして,AJIの形式理論を開発する。
論文 参考訳(メタデータ) (2026-05-02T12:37:28Z) - Distillation Traps and Guards: A Calibration Knob for LLM Distillability [54.90137955363471]
そこで本研究では,教師の蒸留性を制御するためのポストホック校正法を提案する。
我々の目標は、タスクユーティリティ、KLアンカー、およびクロストケナイザーキャリブレーション報酬を組み合わせることである。
実験により、蒸留可能な教師から蒸留した学生は、SFTおよびKDベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-04-21T01:22:35Z) - Beyond Distribution Sharpening: The Importance of Task Rewards [20.11905685439596]
両パラダイムを実装するツールとしてRLを用いて,分布のシャープニングとタスク逆学習を比較した。
Llama-3.2-3B-インストラクト、Qwen2.5-3B-インストラクト、Qwen3-4B-インストラクト-2507を用いた数学データセットによる実験では、シャープ化が利得を制限することが確認された。
論文 参考訳(メタデータ) (2026-04-17T17:17:55Z) - Don't Ignore the Tail: Decoupling top-K Probabilities for Efficient Language Model Distillation [50.19746127327559]
教師モデルのトップK予測確率と低確率予測確率の寄与を分離する新しいテールアウェア分岐を提案する。
実験により, 改良蒸留法は, デコーダモデルの事前学習と教師付き蒸留の両方において, 競争性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-02-24T11:54:06Z) - Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield [54.328202401611264]
拡散モデル蒸留は、効率的な数段・単段発生装置を作るための強力な技術として登場した。
数段蒸留の原動力は分布一致ではなく,これまで見過ごされていた成分であるCFG増量 (CFG Augmentation, CA) であることを示す。
本稿では, エンジンとレギュレータのノイズスケジュールを分離するなど, 蒸留工程の原理的な修正を提案し, 更なる性能向上を実現した。
論文 参考訳(メタデータ) (2025-11-27T18:24:28Z) - BARD: budget-aware reasoning distillation [25.725960386304646]
ロング・チェーン・オブ・ソート (Long Chain-of-Thought, CoT) 蒸留は推論能力をより小さな言語モデルに効果的に伝達する。
bftextBudget-Aware Reasoning Distillation (BARD) を提案する。
論文 参考訳(メタデータ) (2025-11-03T11:30:18Z) - HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。
しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。
我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:42:03Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。