論文の概要: Life Cycle-Aware Evaluation of Knowledge Distillation for Machine Translation: Environmental Impact and Translation Quality Trade-offs
- arxiv url: http://arxiv.org/abs/2602.09691v1
- Date: Tue, 10 Feb 2026 11:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.515258
- Title: Life Cycle-Aware Evaluation of Knowledge Distillation for Machine Translation: Environmental Impact and Translation Quality Trade-offs
- Title(参考訳): 機械翻訳における知識蒸留のライフサイクル評価:環境影響と翻訳品質のトレードオフ
- Authors: Joseph Attieh, Timothee Mickus, Anne-Laure Ligozat, Aurélie Névéol, Jörg Tiedemann,
- Abstract要約: 知識蒸留(KD)は、より大きなシステム(教師)をより小さなシステム(学生)に圧縮するツールである。
機械翻訳において、研究は通常、学生の翻訳品質とKDを実行する際の計算複雑性を省略する。
我々は,翻訳品質と計算コストの両面を考慮した代表KD手法の評価を行った。
- 参考スコア(独自算出の注目度): 12.146675840223049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) is a tool to compress a larger system (teacher) into a smaller one (student). In machine translation, studies typically report only the translation quality of the student and omit the computational complexity of performing KD, making it difficult to select among the many available KD choices under compute-induced constraints. In this study, we evaluate representative KD methods by considering both translation quality and computational cost. We express computational cost as a carbon footprint using the machine learning life cycle assessment (MLCA) tool. This assessment accounts for runtime operational emissions and amortized hardware production costs throughout the KD model life cycle (teacher training, distillation, and inference). We find that (i) distillation overhead dominates the total footprint at small deployment volumes, (ii) inference dominates at scale, making KD beneficial only beyond a task-dependent usage threshold, and (iii) word-level distillation typically offers more favorable footprint-quality trade-offs than sequence-level distillation. Our protocol provides reproducible guidance for selecting KD methods under explicit quality and compute-induced constraints.
- Abstract(参考訳): 知識蒸留(KD)は、より大きなシステム(教師)をより小さなシステム(学生)に圧縮するツールである。
機械翻訳において、研究は通常、学生の翻訳品質のみを報告し、KDを実行する際の計算の複雑さを省略する。
本研究では,翻訳品質と計算コストの両面を考慮した代表的KD手法の評価を行った。
機械学習ライフサイクルアセスメント(MLCA)ツールを用いて,計算コストを炭素フットプリントとして表現する。
この評価は、KDモデルライフサイクル全体(教師のトレーニング、蒸留、推論)を通して、実行時の運用排出と、ハードウェア生産コストを考慮に入れている。
私たちはそれを見つける。
(i)蒸留オーバーヘッドは、小規模配備量における総フットプリントを支配している。
(II)推論は大規模に支配され、KDはタスク依存の使用しきい値を超え、有用である。
三 ワードレベルの蒸留は典型的には、シーケンスレベルの蒸留よりもフットプリント品質の高いトレードオフを提供する。
我々のプロトコルは、明示的な品質と計算による制約の下でKDメソッドを選択するための再現可能なガイダンスを提供する。
関連論文リスト
- Importance Analysis for Dynamic Control of Balancing Parameter in a Simple Knowledge Distillation Setting [2.5536554335016417]
知識蒸留(KD)はその強い経験的性能で際立っている。
KDは, 蒸留損失の影響が下流タスク損失よりも大きい場合に最も有効である。
本稿では,損失が減少している場合のKD設定において,バランスパラメータを動的に調整する必要があるという数学的根拠を提供する。
論文 参考訳(メタデータ) (2025-05-06T04:04:30Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport [46.91791643660991]
マルチモーダル表現認識のための深層学習モデルは, 制御された実験室環境において顕著な性能を示した。
これらのモデルは、トレーニングに使用されるモダリティの可用性と品質のために、荒野で苦労する。
実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。
特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。
論文 参考訳(メタデータ) (2024-01-27T19:44:15Z) - EA-KD: Entropy-based Adaptive Knowledge Distillation [7.545437055775005]
エントロピーに基づく適応的知識蒸留(EA-KD)は、貴重なサンプルからの学習を優先するプラグアンドプレイのKD手法である。
EA-KDは一貫して性能を向上し、非許容計算コストで最先端の計算結果を達成する。
論文 参考訳(メタデータ) (2023-11-22T08:34:33Z) - Revisiting Intermediate Layer Distillation for Compressing Language
Models: An Overfitting Perspective [7.481220126953329]
中間層蒸留(ILD)は事実上の標準KD法であり,NLPフィールドの性能向上に寄与している。
本稿では,既存のILD手法はトレーニングデータセットに過度に適合する傾向があるが,これらの手法は元のKDよりも多くの情報を伝達する。
我々は,学生モデルがトレーニングデータセットを過度に適合させるのを防ぐ,シンプルで効果的な一貫性規則化IDDを提案する。
論文 参考訳(メタデータ) (2023-02-03T04:09:22Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。