論文の概要: Sirius: Contextual Sparsity with Correction for Efficient LLMs
- arxiv url: http://arxiv.org/abs/2409.03856v1
- Date: Thu, 5 Sep 2024 18:38:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 17:40:07.720074
- Title: Sirius: Contextual Sparsity with Correction for Efficient LLMs
- Title(参考訳): Sirius: 効率的なLLMのための補正によるコンテキストスペーサ
- Authors: Yang Zhou, Zhuoming Chen, Zhaozhuo Xu, Victoria Lin, Beidi Chen,
- Abstract要約: CS(Contextual Sparsity)は、トレーニングのない性質と、品質劣化を伴わずに高い圧縮比に達する能力に訴えている。
エンドツーエンドの精度の差にもかかわらず、スパースモデルは一般的な問題解決ロジックを共有することが多い。
本稿では、CSモデルの品質を推論タスクで大幅に回復する効率的な補正機構であるSiriusを紹介する。
- 参考スコア(独自算出の注目度): 17.433112174650514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the blossom of large language models (LLMs), inference efficiency becomes increasingly important. Various approximation methods are proposed to reduce the cost at inference time. Contextual Sparsity (CS) is appealing for its training-free nature and its ability to reach a higher compression ratio seemingly without quality degradation. However, after a comprehensive evaluation of contextual sparsity methods on various complex generation tasks, we find that although CS succeeds in prompt-understanding tasks, CS significantly degrades the model performance for reasoning, deduction, and knowledge-based tasks. Despite the gap in end-to-end accuracy, we observed that sparse models often share general problem-solving logic and require only a few token corrections to recover the original model performance. This paper introduces Sirius, an efficient correction mechanism, which significantly recovers CS models quality on reasoning tasks while maintaining its efficiency gain. Sirius is evaluated on 6 models with 8 difficult generation tasks in reasoning, math, and coding and shows consistent effectiveness and efficiency. Also, we carefully develop a system implementation for Sirius and show that Sirius achieves roughly 20% reduction in latency for 8B model on-chip and 35% reduction for 70B model offloading. We open-source our implementation of Sirius at https://github.com/Infini-AI-Lab/Sirius.git.
- Abstract(参考訳): 大きな言語モデル(LLM)の花が咲くにつれ、推論効率はますます重要になる。
推定時のコストを削減するために,様々な近似法が提案されている。
CS(Contextual Sparsity)は、トレーニングのない性質と、品質劣化を伴わずに高い圧縮比に達する能力に訴えている。
しかし,様々な複雑な生成タスクにおける文脈空間的疎性手法を総合的に評価した結果,CSは即時理解タスクに成功しているが,CSは推論,推論,知識に基づくタスクにおいて,モデル性能を著しく低下させることがわかった。
エンド・ツー・エンドの精度の差にもかかわらず、スパースモデルはしばしば一般的な問題解決ロジックを共有しており、元のモデル性能を回復するためにはトークンの修正がほんの数回必要である。
本稿では,効率向上を維持しつつ,推論タスクのCSモデル品質を著しく向上させる,効率的な補正機構であるSiriusを紹介する。
Siriusは推論、数学、コーディングにおいて8つの難しい生成タスクを持つ6つのモデルで評価され、一貫した効率と効率を示す。
また,Siriusのシステム実装を慎重に開発し,8Bモデルオンチップで約20%のレイテンシ削減を実現し,70Bモデルオフロードで35%の削減を実現した。
Siriusの実装はhttps://github.com/Infini-AI-Lab/Sirius.git.comで公開しています。
関連論文リスト
- Self-Data Distillation for Recovering Quality in Pruned Large Language Models [1.6806195817865561]
原モデルの品質を維持するために, 自己データ蒸留ファインチューニングを提案する。
本手法は,教師付き微調整による81.7%と比較して,原モデルの精度の91.2%を維持している。
我々のアプローチはデータセット全体にわたって効果的にスケールし、データセットのサイズが大きくなるにつれて品質が向上します。
論文 参考訳(メタデータ) (2024-10-13T19:53:40Z) - Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors [75.24313405671433]
拡散に基づく画像超解像法 (SR) は、事前訓練された大規模なテキスト・画像拡散モデルを先行として活用することにより、顕著な成功を収めた。
本稿では,拡散型SR手法の効率問題に対処する新しい一段階SRモデルを提案する。
既存の微調整戦略とは異なり、SR専用の劣化誘導低ランク適応 (LoRA) モジュールを設計した。
論文 参考訳(メタデータ) (2024-09-25T16:15:21Z) - Any Image Restoration with Efficient Automatic Degradation Adaptation [132.81912195537433]
本研究は, 各種劣化の相似性を有効かつ包括的修復に活用し, 共同埋設を実現する統一的な方法を提案する。
我々のネットワークは、モデルの複雑さをトレーニング可能なパラメータで約82%、FLOPで約85%削減しつつ、新しいSOTAレコードを設定している。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。
本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文 参考訳(メタデータ) (2024-01-11T04:59:44Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Quantized Adaptive Subgradient Algorithms and Their Applications [39.103587572626026]
本稿では、分散トレーニングのための量子化された複合ミラー降下適応次数 (QCMD adagrad) と量子化された正規化された2次平均適応次数 (QRDA adagrad) を提案する。
量子化勾配に基づく適応学習率行列を構築し、通信コスト、精度、モデル間隔のバランスをとる。
論文 参考訳(メタデータ) (2022-08-11T04:04:03Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。