論文の概要: SODA: Semi On-Policy Black-Box Distillation for Large Language Models
- arxiv url: http://arxiv.org/abs/2604.03873v2
- Date: Sun, 12 Apr 2026 23:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.55828
- Title: SODA: Semi On-Policy Black-Box Distillation for Large Language Models
- Title(参考訳): SODA:大規模言語モデルのための半オンポリティブラックボックス蒸留
- Authors: Xiwen Chen, Jingjing Wang, Wenhui Zhu, Peijie Qiu, Xuanzhao Dong, Hejian Sang, Zhipeng Wang, Alborz Geramifard, Feng Luo,
- Abstract要約: 大きな言語モデルに対するブラックボックスの知識蒸留は厳密なトレードオフをもたらす。
4つのコンパクトQwen2.5およびLlama-3モデルのセミ評価は、このセミオン政治パラダイムを検証する。
トレーニングを10倍速くし、27%のピークGPUメモリを消費し、対向不安定性を完全に排除しながら、この優れた蒸留品質を実現する。
- 参考スコア(独自算出の注目度): 19.748920924563546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Black-box knowledge distillation for large language models presents a strict trade-off. Simple off-policy methods (e.g., sequence-level knowledge distillation) struggle to correct the student's inherent errors. Fully on-policy methods (e.g., Generative Adversarial Distillation) solve this via adversarial training but introduce well-known training instability and crippling computational overhead. To address this dilemma, we propose SODA (Semi On-policy Distillation with Alignment), a highly efficient alternative motivated by the inherent capability gap between frontier teachers and much smaller base models. Because a compact student model's natural, zero-shot responses are almost strictly inferior to the powerful teacher's targets, we can construct a highly effective contrastive signal simply by pairing the teacher's optimal response with a one-time static snapshot of the student's outputs. This demonstrates that exposing the small student to its own static inferior behaviors is sufficient for high-quality distribution alignment, eliminating the need for costly dynamic rollouts and fragile adversarial balancing. Extensive evaluations across four compact Qwen2.5 and Llama-3 models validate this semi on-policy paradigm. SODA matches or outperforms the state-of-the-art methods on 15 out of 16 benchmark results. More importantly, it achieves this superior distillation quality while training 10 times faster, consuming 27% less peak GPU memory, and completely eliminating adversarial instability.
- Abstract(参考訳): 大きな言語モデルに対するブラックボックスの知識蒸留は厳密なトレードオフをもたらす。
単純なオフポリシー法(例えば、シーケンスレベルの知識蒸留)は、学生固有の誤りを修正するのに苦労する。
完全なオン・ポリケーション法(例:ジェネレーティブ・ディストラクショナル・ディストラクション)は、敵対的トレーニングを通じてこれを解決するが、よく知られたトレーニング不安定性を導入し、計算オーバーヘッドを抑える。
このジレンマに対処するために,フロンティア教師とそれよりはるかに小さなベースモデルとの能力ギャップを動機とした,高度に効率的な代替手段であるSODA(Semi On-policy Distillation with Alignment)を提案する。
コンパクトな学生モデルの自然なゼロショット応答は、強力な教師の目標よりもほとんど劣っているため、教師の最適応答と生徒の出力の1時間の静的スナップショットをペアにすることで、非常に効果的なコントラスト信号を構築することができる。
このことは、小学生を自身の静的な劣等行動に晒すことは、高品質な分散アライメントに十分であり、コストのかかる動的ロールアウトと脆弱な対向バランスの必要性を排除していることを示している。
4つのコンパクトQwen2.5モデルとLlama-3モデルの広範囲な評価は、このセミオン・ポリシー・パラダイムを検証する。
SODAは16のベンチマーク結果のうち15で最先端のメソッドと一致または性能を向上する。
さらに重要なのは、トレーニングを10倍速くし、27%のピークGPUメモリを消費し、敵の不安定性を完全に排除しながら、この優れた蒸留品質を実現することだ。
関連論文リスト
- OVD: On-policy Verbal Distillation [47.727229201069555]
On-policy Verbal Distillation (OVD) は、トークンレベルの確率マッチングを軌道マッチングに置き換えるメモリ効率の高いフレームワークである。
OVDは、言語フィードバックを持つ教師モデルからのオンライン蒸留を可能にしながら、メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2026-01-29T16:48:14Z) - Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning [48.041170200238206]
DASD-4B-Thinkingは軽量で高機能で完全なオープンソース推論モデルである。
これは、数学、科学的推論、コード生成の挑戦的なベンチマークにおいて、同等規模のオープンソースのモデル間でSOTA性能を達成する。
論文 参考訳(メタデータ) (2026-01-14T02:43:17Z) - AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。
トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文 参考訳(メタデータ) (2025-10-09T06:38:37Z) - Synthetic Adaptive Guided Embeddings (SAGE): A Novel Knowledge Distillation Method [1.5839621757142595]
本研究では,高学年モデル損失の地域において,動的にトレーニングデータを増強する適応蒸留フレームワークを提案する。
本手法は, 組込み空間における過小評価領域を同定し, 対象とする合成例を生成し, 学習指導を行う。
論文 参考訳(メタデータ) (2025-08-20T15:29:00Z) - Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator [81.81748032199813]
拡散モデルは実世界の超解像(Real-ISR)に優れた性能を示した
SRのための大規模textbfDiscriminator を用いた One-Step textbfDiffusion モデルを提案する。
我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Indirect Gradient Matching for Adversarial Robust Distillation [15.184564265850382]
アドリアトレーニングは敵の堅牢性を大幅に向上させるが、優れた性能は大きなモデルで主に達成される。
既存の反対蒸留法(AD)は教師の足跡をガイドとして活用する。
Indirect Gradient Distillation Module (IGDM) と呼ばれる蒸留モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:32:38Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。