論文の概要: Constrained Edge AI Deployment: Fine-Tuning vs Distillation for LLM Compression
- arxiv url: http://arxiv.org/abs/2505.18166v1
- Date: Tue, 13 May 2025 19:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-01 23:16:01.415045
- Title: Constrained Edge AI Deployment: Fine-Tuning vs Distillation for LLM Compression
- Title(参考訳): 制約付きエッジAIデプロイメント: LLM圧縮のための微細チューニング対蒸留
- Authors: Jacob Sander, David Moe, Achraf Cohen, Brent Venable, Venkat Dasari, Brian Jalaian,
- Abstract要約: 現代のモデルは、エッジデプロイメントの厳密な計算、メモリ、接続制約を満たすために、構造化プルーニングと再トレーニングの組み合わせによって圧縮されることが多い。
我々の焦点は最大圧縮を達成することではなく、再学習損失関数の影響を分離することである。
エッジネットワークに典型的な断続的あるいは否定的な接続シナリオに適したコモンセンスQAのOLMo2-7B-SFTモデル上で両方のパイプラインを評価する。
- 参考スコア(独自算出の注目度): 1.85373927927491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern foundational models are often compressed via a combination of structured pruning and re-training to meet the strict compute, memory, and connectivity constraints of edge deployments. While state-of-the-art pruning schemes target the entire Transformer, we adopt a simple, layer-wise L2-norm pruning on only the MLP blocks as a fixed baseline. Our focus is not on achieving maximal compression, but on isolating the impact of the re-training loss function: (i) Fine-tuning with Cross- Entropy (L2PFT), which requires labeled data, versus (ii) Self-Distillation with KL-divergence, which leverages only teacher logits (no labels) (L2PSD). We evaluate both pipelines on the OLMo2- 7B-SFT model for CommonsenseQA suitable for intermittent or denied connectivity scenarios typical of edge networks. Under identical pruning schedules, KL-based distillation matches or exceeds CE fine-tuning in test accuracy, demonstrating that, even with a basic MLP-only pruning, the choice of loss function materially affects compressed model recovery in resource-constrained environments.
- Abstract(参考訳): 現代の基礎モデルは、エッジデプロイメントの厳密な計算、メモリ、接続制約を満たすために、構造化プルーニングと再トレーニングの組み合わせによって圧縮されることが多い。
最先端のプルーニングスキームはトランスフォーマー全体を対象としているが、固定ベースラインとしてMDPブロックのみにレイヤワイドなL2ノームプルーニングを採用する。
我々の焦点は、最大圧縮を達成することではなく、再学習損失関数の影響を分離することである。
(i)ラベル付きデータを必要とするクロスエントロピー(L2PFT)による微調整
(II)教師ロジット(ラベルなし)のみを活用したKL分割による自己蒸留(L2PSD)。
エッジネットワークに典型的な断続的あるいは否定的な接続シナリオに適したコモンセンスQAのOLMo2-7B-SFTモデル上で両方のパイプラインを評価する。
同一のプルーニングスケジュールの下では、KLベースの蒸留はCE微調整を精度良く行うか、あるいは超えるかで一致し、基本的なMLPのみのプルーニングであっても、損失関数の選択は資源制約環境下での圧縮モデル回復に実質的に影響を及ぼすことを示した。
関連論文リスト
- FCOS: A Two-Stage Recoverable Model Pruning Framework for Automatic Modulation Recognition [20.984813278551115]
自動変調認識のためのファイン・ツー・コア2段階プルーニングフレームワーク
複数のAMRベンチマークの実験では、FCOSが既存のチャネルおよび層プルーニング法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-05-27T07:12:09Z) - Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model [0.0]
Mix-QSAMはSegment Anything Model(SAM)のためのPTQフレームワークである。
モデル出力に対する各レイヤの寄与を定量化するために,Kulback-Leibler (KL) 偏差を用いて導出したレイヤ単位の重要度スコアを導入する。
また、隣接層間の依存関係を捉えるために、因果的相互情報に基づく新しい計量である層間相乗法を導入する。
論文 参考訳(メタデータ) (2025-05-08T00:08:31Z) - Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
モデル圧縮問題をカスタマイズした補償問題に再構成する。
トレーニング不要な固有空間低ランク近似(EoRA)を提案する。
EoRAは、勾配ベースのトレーニングを必要とせずに、圧縮誘起エラーを直接最小化する。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - Semi-Supervised Coupled Thin-Plate Spline Model for Rotation Correction and Beyond [84.56978780892783]
制御点が限られている複数のTPSを、より柔軟で強力な変換に繰り返し結合するCoupledTPSを提案する。
注記コストを考慮に入れた半教師付き学習手法を開発し、ラベルのないデータを活用することにより、ワープ品質を向上させる。
実験は、回転補正のための既存の最先端解よりもCoupledTPSの優位性と普遍性を示す。
論文 参考訳(メタデータ) (2024-01-24T13:03:28Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。
拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。
また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:18:35Z) - COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency
with Slenderized Multi-exit Language Models [16.586312156966635]
トランスフォーマーベースの事前訓練言語モデル(PLM)は、高い能力にもかかわらず過度のオーバーヘッドに悩まされている。
既存の静的圧縮モデルは、入力インスタンス間の様々な複雑さに気づいていない。
静的モデル圧縮と動的推論アクセラレーションを統合したPLMの協調最適化を提案する。
論文 参考訳(メタデータ) (2022-10-27T15:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。