論文の概要: UniSD: Towards a Unified Self-Distillation Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2605.06597v1
- Date: Thu, 07 May 2026 17:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.034247
- Title: UniSD: Towards a Unified Self-Distillation Framework for Large Language Models
- Title(参考訳): UniSD:大規模言語モデルのための統合自己拡張フレームワークを目指して
- Authors: Yiqiao Jin, Yiyang Wang, Lucheng Fu, Yijia Xiao, Yinyi Luo, Haoxin Liu, B. Aditya Prakash, Josiah Hester, Jindong Wang, Srijan Kumar,
- Abstract要約: 自己蒸留は、より強力な外部教師に頼ることなく、大きな言語モデル(LLM)を適用するための有望な道を提供する。
既存の手法は、主に独立した設計選択を検証し、その効果、役割、相互作用がはっきりしないままである。
自己蒸留を体系的に研究する統合フレームワークUniSDを提案する。
- 参考スコア(独自算出の注目度): 38.12407816591177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-distillation (SD) offers a promising path for adapting large language models (LLMs) without relying on stronger external teachers. However, SD in autoregressive LLMs remains challenging because self-generated trajectories are free-form, correctness is task-dependent, and plausible rationales can still provide unstable or unreliable supervision. Existing methods mainly examine isolated design choices, leaving their effectiveness, roles, and interactions unclear. In this paper, we propose UniSD, a unified framework to systematically study self-distillation. UniSD integrates complementary mechanisms that address supervision reliability, representation alignment, and training stability, including multi-teacher agreement, EMA teacher stabilization, token-level contrastive learning, feature matching, and divergence clipping. Across six benchmarks and six models from three model families, UniSD reveals when self-distillation improves over static imitation, which components drive the gains, and how these components interact across tasks. Guided by these insights, we construct UniSDfull, an integrated pipeline that combines complementary components and achieves the strongest overall performance, improving over the base model by +5.4 points and the strongest baseline by +2.8 points. Extensive evaluation highlights self-distillation as a practical and steerable approach for efficient LLM adaptation without stronger external teachers.
- Abstract(参考訳): 自己蒸留(SD)は、より強力な外部教師に頼ることなく、大きな言語モデル(LLM)を適応するための有望な経路を提供する。
しかし、自己回帰的LSMにおけるSDは、自己生成軌道が自由であり、正当性はタスク依存であり、もっともらしい有理性は不安定または信頼性の低い監視を提供するため、依然として困難である。
既存の方法は、主に独立した設計選択を調査し、その効果、役割、相互作用がはっきりしないままである。
本稿では, 自己蒸留を体系的に研究する統合フレームワークUniSDを提案する。
UniSDは、多教師合意、EMA教師安定化、トークンレベルのコントラスト学習、特徴マッチング、分散クリッピングなど、監督の信頼性、配向アライメント、トレーニング安定性に対処する補完的なメカニズムを統合している。
6つのベンチマークと3つのモデルファミリーの6つのモデルで、UniSDは、コンポーネントがゲインを駆動する静的な模倣よりも自己蒸留が改善され、これらのコンポーネントがタスク間でどのように相互作用するかを明らかにしている。
これらの知見によって導かれたUniSDfullは、補完的なコンポーネントを組み合わせて最強の全体的なパフォーマンスを実現し、ベースモデルを+5.4ポイント、最強のベースラインを+2.8ポイント改善する統合パイプラインである。
総合評価では, 外部教師を伴わない, 効率的なLCM適応のための実践的, 評価可能なアプローチとして, 自己蒸留が強調されている。
関連論文リスト
- Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe [53.40076304466524]
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)をまたいで一般化する統一OPDフレームワークであるUni-OPDを提案する。
具体的には、学生の立場から、学習中の情報発信状態の探索を促進するために、2つのデータバランス戦略を採用する。
我々は,正しい軌道と間違った軌道の順序の整合性を取り戻すために,結果誘導マージンキャリブレーション機構を開発した。
論文 参考訳(メタデータ) (2026-05-05T12:15:21Z) - "The Whole Is Greater Than the Sum of Its Parts": A Compatibility-Aware Multi-Teacher CoT Distillation Framework [16.96094045628127]
CoT(Chain-of-Thought)推論は、大きな言語モデル(LLM)に優れた能力を与えるが、通常は禁止的なパラメータスケールを必要とする。
CoT蒸留は、推論技術をコンパクトな学生モデル(SLM)に伝達するための有望なパラダイムとして登場した。
我々は,教師の勾配を動的に重み付けすることで,教師の指導を適応的に融合させるフレームワークCompactを紹介する。
論文 参考訳(メタデータ) (2026-01-20T14:05:19Z) - UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision [34.575729271291436]
導電失語(Conduction Aphasia)は、モデルがマルチモーダル入力を正確に解釈するが、その理解を忠実で制御可能な合成に変換するのに苦労する現象である。
外部データや教師の監督を必要としない,シンプルでエレガントな自己改善フレームワークUniCornを提案する。
マルチモーダルコヒーレンスの回復を検証するために,テキスト・トゥ・イメージ・トゥ・テクスチャ・コンシステンシー・ベンチマークであるUniCycleを導入する。
論文 参考訳(メタデータ) (2026-01-06T17:15:50Z) - Self-Rewarded Multimodal Coherent Reasoning Across Diverse Visual Domains [16.357026482329232]
マルチモーダルLSMは、流動的で信頼性の低い推論を生成する。
SR-MCRは軽量でラベルのないフレームワークであり、推論を整合させる。
SR-MCRは、幅広いビジュアルベンチマークで解答精度と推論コヒーレンスを改善する。
論文 参考訳(メタデータ) (2025-12-27T10:14:14Z) - MMT-ARD: Multimodal Multi-Teacher Adversarial Distillation for Robust Vision-Language Models [123.90007730845876]
MMT-ARD: Multimodal Multi-Teacher Adversarial Distillation frameworkを提案する。
私たちの重要なイノベーションは、クリーンな機能の保存と堅牢な機能の強化を協調的に最適化する、デュアルテスタの知識融合アーキテクチャです。
ImageNetとゼロショットベンチマークの実験では、MT-ARDは頑健な精度を+4.32%、ゼロショットの精度を+3.5%改善している。
論文 参考訳(メタデータ) (2025-11-21T17:46:44Z) - AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。
トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文 参考訳(メタデータ) (2025-10-09T06:38:37Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。