論文の概要: AdaSwitch: Adaptive Switching Generation for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2510.07842v1
- Date: Thu, 09 Oct 2025 06:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.91119
- Title: AdaSwitch: Adaptive Switching Generation for Knowledge Distillation
- Title(参考訳): AdaSwitch:知識蒸留のための適応的なスイッチ生成
- Authors: Jingyu Peng, Maolin Wang, Hengyi Cai, Yuchen Li, Kai Zhang, Shuaiqiang Wang, Dawei Yin, Xiangyu Zhao,
- Abstract要約: スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。
トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
- 参考スコア(独自算出の注目度): 58.647880811071495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small language models (SLMs) are crucial for applications with strict latency and computational constraints, yet achieving high performance remains challenging. Knowledge distillation (KD) can transfer capabilities from large teacher models, but existing methods involve trade-offs: off-policy distillation provides high-quality supervision but introduces a training-inference mismatch, while on-policy approaches maintain consistency but rely on low-quality student outputs. To address these issues, we propose AdaSwitch, a novel approach that dynamically combines on-policy and off-policy generation at the token level. AdaSwitch allows the student to first explore its own predictions and then selectively integrate teacher guidance based on real-time quality assessment. This approach simultaneously preserves consistency and maintains supervision quality. Experiments on three datasets with two teacher-student LLM pairs demonstrate that AdaSwitch consistently improves accuracy, offering a practical and effective method for distilling SLMs with acceptable additional overhead.
- Abstract(参考訳): スモール言語モデル(SLM)は、厳密なレイテンシと計算上の制約のあるアプリケーションには不可欠だが、ハイパフォーマンスを実現することは依然として困難である。
知識蒸留(KD)は大きな教師モデルからの伝達能力を持つが、既存の方法ではトレードオフが伴う: オフ・ポリティクス蒸留は高品質の監督を提供するが、トレーニング・推論のミスマッチを導入し、オン・ポリティクスのアプローチは一貫性を維持しつつ、低品質の学生の出力に依存している。
これらの問題に対処するため,トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを動的に組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは、学生がまず独自の予測を探索し、次にリアルタイムの品質評価に基づいて教師指導を選択的に統合することを可能にする。
このアプローチは一貫性を同時に維持し、監視品質を維持する。
教師と教師の2つのLLMペアを用いた3つのデータセットの実験では、AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供する。
関連論文リスト
- Teach2Eval: An Indirect Evaluation Method for LLM by Judging How It Teaches [46.0474342507327]
Feynman Techniqueにインスパイアされた間接評価フレームワークであるTeach2Evalを紹介する。
本手法は、より弱い学生モデルにタスクを効果的に実行させるためのモデルの複数の能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T06:51:10Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - CoDTS: Enhancing Sparsely Supervised Collaborative Perception with a Dual Teacher-Student Framework [15.538850922083652]
我々は,CoDTS(Dual Teacher-Student framework)のエンドツーエンド協調認識を提案する。
適応的な補完学習を用いて、高品質な擬似ラベルと高品質な擬似ラベルの両方を生成する。
CoDTSは、品質と量の両方において、擬似ラベルの最適バランスを効果的に保証する。
論文 参考訳(メタデータ) (2024-12-11T12:34:37Z) - Distillation Matters: Empowering Sequential Recommenders to Match the Performance of Large Language Model [12.6937643116018]
大規模言語モデル(LLM)はレコメンデーションとして効果的に利用されており、優れたパフォーマンスを実現している。
しかし、LLMの高推論遅延は、実用的デプロイメントを著しく制限する。
本研究では,LLMに基づく推薦モデルから軽量シーケンシャルモデルへの知識蒸留について検討する。
論文 参考訳(メタデータ) (2024-05-01T06:23:54Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。