論文の概要: Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference
- arxiv url: http://arxiv.org/abs/2309.08968v2
- Date: Thu, 8 Feb 2024 22:43:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 20:32:06.813424
- Title: Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference
- Title(参考訳): Sorted LLaMA:動的推論のための大規模言語モデルの中間層のポテンシャルを解き放つ
- Authors: Parsa Kavehzadeh, Mojtaba Valipour, Marzieh Tahaei, Ali Ghodsi, Boxing
Chen, Mehdi Rezagholizadeh
- Abstract要約: SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
- 参考スコア(独自算出の注目度): 32.62084449979531
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have revolutionized natural language processing
(NLP) by excelling at understanding and generating human-like text. However,
their widespread deployment can be prohibitively expensive. SortedNet is a
recent training technique for enabling dynamic inference by leveraging the
modularity in networks and sorting sub-models based on computation/accuracy in
a nested manner. We extend SortedNet to generative NLP tasks, making large
language models dynamic without any Pre-Training and by only replacing Standard
Fine-Tuning (SFT) with Sorted Fine-Tuning (SoFT). Our approach boosts model
efficiency, eliminating the need for multiple models for various scenarios
during inference. We show that this approach can unlock the power of
intermediate layers of transformers in generating the target output. Our
sub-models remain integral components of the original model, minimizing storage
requirements and transition costs between different computational/latency
budgets. The efficacy of our proposed method was demonstrated by applying it to
tune LLaMA 2 13B on the Stanford Alpaca dataset for instruction following and
TriviaQA for closed-book question answering. Our results show the superior
performance of sub-models in comparison to Standard Fine-Tuning and SFT+ICT
(Early-Exit), all achieved with efficient tuning and without additional memory
usage during inference.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間に似たテキストの理解と生成に長け、自然言語処理(NLP)に革命をもたらした。
しかし、その広範な展開は制限的に高価である。
SortedNetは、ネットワークのモジュラリティを活用し、ネストされた方法で計算/精度に基づいてサブモデルをソートすることで、動的推論を可能にする最近のトレーニング手法である。
我々は、SortedNetを生成NLPタスクに拡張し、Sorted Fine-Tuning (SoFT) に置き換えることによって、事前学習なしに大きな言語モデルを動的にする。
我々のアプローチはモデル効率を高め、推論中に様々なシナリオで複数のモデルの必要性をなくす。
この手法は, 対象出力を生成する際に, 中間層の変換器のパワーを解放できることを示す。
我々のサブモデルは、ストレージ要件と異なる計算/レイテンシ予算間の遷移コストを最小限に抑えながら、元のモデルの不可欠なコンポーネントのままです。
提案手法の有効性は,Stanford Alpaca データセット上で LLaMA 2 13B をチューニングし,TriviaQA をクローズドブック質問応答に適用することで実証した。
提案手法は,SFT+ICT(Early-Exit)とSFT+ICT(Standard Fine-Tuning)と比較して,高速チューニングと推論時のメモリ使用量の増加を伴わず,サブモデルの優れた性能を示す。
関連論文リスト
- Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - SortedNet: A Scalable and Generalized Framework for Training Modular Deep Neural Networks [30.069353400127046]
我々は、ディープニューラルネットワーク(DNN)の固有のモジュラリティを活用するためにSortedNetを提案する。
SortedNetは、メインモデルのトレーニングと同時にサブモデルのトレーニングを可能にする。
一度に160台のサブモデルを訓練でき、オリジナルのモデルの性能の少なくとも96%を達成できる。
論文 参考訳(メタデータ) (2023-09-01T05:12:25Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Rethinking embedding coupling in pre-trained language models [46.11201932668366]
我々は、事前学習された言語モデルにおける入力と出力の埋め込みの重みを共有する標準的な方法を再評価する。
分離された埋め込みによりモデリングの柔軟性が向上し、パラメータ割り当ての効率が大幅に向上することを示す。
我々は、微調整段階においてパラメータの数を増やすことなく、XTREMEベンチマークで高い性能を達成するモデルを訓練することができる。
論文 参考訳(メタデータ) (2020-10-24T07:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。