論文の概要: Self-Policy Distillation via Capability-Selective Subspace Projection
- arxiv url: http://arxiv.org/abs/2605.22675v1
- Date: Thu, 21 May 2026 16:18:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.605064
- Title: Self-Policy Distillation via Capability-Selective Subspace Projection
- Title(参考訳): 容量選択部分空間射影による自己ポリシィ蒸留
- Authors: Guangya Hao, Yitong Shang, Yunbo Long, Zhuokai Zhao, Hanxue Liang,
- Abstract要約: 自己蒸留は、自分自身の世代でトレーニングすることで、大きな言語モデルをブートストラップする。
本稿では,外部信号なしで汎用的かつ選択的に機能する自己ポリシィ蒸留(SPD)を提案する。
- 参考スコア(独自算出の注目度): 7.045080257744291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-distillation bootstraps large language models (LLMs) by training on their own generations. However, existing methods either rely on external signals to curate self-generated outputs (e.g., correctness filtering, execution feedback, and reward search), which are costly and unavailable for the best-performing frontier models, or skip curation entirely and train on all raw outputs, an approach that is often domain-specific and hard to generalize. Both also share a deeper weakness that self-generated outputs entangle task-relevant capability with others, such as stylistic patterns, formatting artifacts, and model-specific errors, diluting the signal for the specific capability one aims to improve. In this paper, we propose Self-Policy Distillation (SPD), which achieves generalizable, capability selective without any external signal. Specifically, SPD extracts a low-rank capability subspace from the model's own gradients on correctness-defining tokens, projects key-value (KV) activations into this subspace during self-generation, and fine-tunes on the resulting raw outputs with standard next-token prediction loss. Through extensive experiments across code generation, mathematical reasoning, and multiple-choice QA, we show that SPD achieves up to 13% improvement over state-of-the-art self-distillation methods without external signals and up to 16% improvement over pre-trained baselines. Notably, SPD demonstrates superior generalizability, achieving 15% better performance under out-of-domain generalization settings.
- Abstract(参考訳): 自己蒸留は、大きな言語モデル(LLM)を自身の世代でトレーニングすることでブートストラップする。
しかし、既存の手法は外部信号に頼って自己生成出力(例えば、正しいフィルタリング、実行フィードバック、報酬探索)をキュレートするが、これは最良性能のフロンティアモデルでは高価で利用できない。
両者とも、スタイリスティックなパターン、フォーマットアーティファクト、モデル固有のエラーなど、自己生成のタスク関連能力が絡み合った出力を他と共有し、改善を目指す特定の機能に対する信号の希薄化を図っている。
本稿では,外部信号を使わずに汎用的かつ選択的に機能する自己ポリシィ蒸留(SPD)を提案する。
具体的には、SPDは、正当性定義トークン上のモデル自身の勾配から低ランク機能部分空間を抽出し、自己生成中にキー値(KV)アクティベーションをこのサブスペースに投影し、結果として得られる生の出力を通常の次トーケン予測損失で微調整する。
コード生成、数学的推論、多重選択QAの広範な実験を通して、SPDは外部信号のない最先端の自己蒸留法よりも最大13%改善し、事前訓練されたベースラインよりも最大16%改善することを示した。
特に、SPDはより優れた一般化性を示し、ドメイン外の一般化設定で15%優れたパフォーマンスを実現している。
関連論文リスト
- Distribution Preference Optimization: A Fine-grained Perspective for LLM Unlearning [26.120338506874976]
モデルユーティリティ全体を維持しながら、特定のデータの影響を取り除くことを目的としたアンラーニングは、重要な研究領域になりつつある。
textbfDistribution textbfPreference textbfOptimization (DiPO)と呼ばれる新しい未学習アルゴリズムを導出する。
DiPOはTOFUベンチマークで最高の品質を獲得し、MUSEベンチマークで主要なスケーラビリティと持続可能性を維持している。
論文 参考訳(メタデータ) (2025-10-06T12:49:00Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Self-NPO: Negative Preference Optimization of Diffusion Models by Simply Learning from Itself without Explicit Preference Annotations [60.143658714894336]
拡散モデルは、画像、ビデオ、および3Dコンテンツ生成を含む様々な視覚生成タスクにおいて顕著な成功を収めている。
優先度最適化(PO)は、これらのモデルを人間の嗜好に合わせることを目的とした、顕著で成長している研究分野である。
モデル自体からのみ学習する負の選好最適化アプローチであるSelf-NPOを導入する。
論文 参考訳(メタデータ) (2025-05-17T01:03:46Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Out-of-Distribution Detection and Selective Generation for Conditional
Language Models [40.15896981028647]
条件付き言語モデル(CLM)は、出力シーケンスで次のトークンを分類するために主に訓練される。
CLMの高精度かつ軽量なOOD検出法を提案する。
提案手法は,高品質な出力を選択的に生成するために,分布シフトの一般的かつ現実的な設定の下でどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-09-30T16:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。