論文の概要: Sparse Upcycling: Inference Inefficient Finetuning
- arxiv url: http://arxiv.org/abs/2411.08968v1
- Date: Wed, 13 Nov 2024 19:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:25:14.766590
- Title: Sparse Upcycling: Inference Inefficient Finetuning
- Title(参考訳): スパースアップサイクル:推論非効率なファインタニング
- Authors: Sasha Doubov, Nikhil Sardana, Vitaliy Chiley,
- Abstract要約: また, 連続事前学習(CPT)と比較して20%以上の改善が得られた。
しかし、これはかなりの推論コストが伴うため、より大きなモデルに対する高要求の推論設定では40%の遅延が発生している。
- 参考スコア(独自算出の注目度): 4.988895645799531
- License:
- Abstract: Small, highly trained, open-source large language models are widely used due to their inference efficiency, but further improving their quality remains a challenge. Sparse upcycling is a promising approach that transforms a pretrained dense model into a Mixture-of-Experts (MoE) architecture, increasing the model's parameter count and quality. In this work, we compare the effectiveness of sparse upcycling against continued pretraining (CPT) across different model sizes, compute budgets, and pretraining durations. Our experiments show that sparse upcycling can achieve better quality, with improvements of over 20% relative to CPT in certain scenarios. However, this comes with a significant inference cost, leading to 40% slowdowns in high-demand inference settings for larger models. Our findings highlight the trade-off between model quality and inference efficiency, offering insights for practitioners seeking to balance model quality and deployment constraints.
- Abstract(参考訳): 小さな、高度に訓練されたオープンソースの大きな言語モデルは、推論効率のために広く使われているが、その品質をさらに向上することは、依然として課題である。
スパースアップサイクリングは、事前訓練された高密度モデルをMixture-of-Experts (MoE)アーキテクチャに変換し、モデルのパラメータ数と品質を増大させる有望なアプローチである。
本研究では, モデルサイズ, 計算予算, 事前学習期間の異なる連続事前学習(CPT)に対するスパースアップサイクルの有効性を比較した。
実験の結果,特定のシナリオにおいて,CPTと比較して20%以上の改善が得られ,スパークアップサイクルの精度が向上することが示された。
しかし、これはかなりの推論コストが伴うため、より大きなモデルに対する高要求の推論設定では40%の遅延が発生している。
私たちの調査結果は、モデル品質と推論効率のトレードオフを強調し、モデル品質とデプロイメントの制約のバランスを取る実践者のための洞察を提供する。
関連論文リスト
- STLM Engineering Report: Dropout [4.3600359083731695]
オーバーフィッティングシナリオでは,ドロップアウトが依然として有効であり,過剰なデータであってもモデルの適合性を改善するための何らかの関連性があることが判明した。
このプロセスでは、この性能向上の背後にあるメカニズムに関する既存の説明は、言語モデリングでは適用できないことがわかった。
論文 参考訳(メタデータ) (2024-09-09T08:24:29Z) - Co-training and Co-distillation for Quality Improvement and Compression
of Language Models [88.94539115180919]
知識蒸留(KD)は、知識をより小さなモデルに伝達することで、高価な事前訓練言語モデル(PLM)を圧縮する。
ほとんどの小型モデルはオリジナルの大型モデルの性能を上回ることができず、推論速度を改善するために性能を犠牲にする結果となった。
本稿では,2つのモデルを協調学習することで,性能と推論速度を共に向上する新しいフレームワークであるCTCDを提案する。
論文 参考訳(メタデータ) (2023-11-06T03:29:00Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z) - Knowledge Distillation for Quality Estimation [79.51452598302934]
QE(Quality Estimation)は、参照翻訳のない機械翻訳の品質を自動的に予測するタスクである。
QEの最近の成功は、非常に大きなモデルが印象的な結果をもたらす多言語事前学習表現の使用に起因している。
提案手法は, データ拡張と組み合わせて, 8倍のパラメータを持つ蒸留前学習表現と競合する軽量QEモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2021-07-01T12:36:21Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。