論文の概要: Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference Using Sorted Fine-Tuning (SoFT)
- arxiv url: http://arxiv.org/abs/2309.08968v1
- Date: Sat, 16 Sep 2023 11:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 18:02:16.015267
- Title: Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference Using Sorted Fine-Tuning (SoFT)
- Title(参考訳): Sorted LLaMA: Sorted Fine-Tuning (SoFT) を用いた動的推論のための大規模言語モデルの中間層の可能性の解錠
- Authors: Parsa Kavehzadeh, Mojtaba Valipour, Marzieh Tahaei, Ali Ghodsi, Boxing
Chen, Mehdi Rezagholizadeh
- Abstract要約: 我々はSortedNetを生成NLPタスクに拡張し、事前トレーニングなしで大きな言語モデルを動的にする。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
Sorted Fine-Tuningは、性能を維持したり超えたりしながら、オリジナルのモデルの2倍の速度でモデルを納品できることを示す。
- 参考スコア(独自算出の注目度): 32.62084449979531
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid advancement of large language models (LLMs) has revolutionized
natural language processing (NLP). While these models excel at understanding
and generating human-like text, their widespread deployment can be
prohibitively expensive. SortedNet is a recent training technique for enabling
dynamic inference for deep neural networks. It leverages network modularity to
create sub-models with varying computational loads, sorting them based on
computation/accuracy characteristics in a nested manner. We extend SortedNet to
generative NLP tasks, making large language models dynamic without any
pretraining and by only replacing standard Supervised Fine-Tuning (SFT) with
Sorted Fine-Tuning (SoFT) at the same costs. Our approach boosts model
efficiency, eliminating the need for multiple models for various scenarios
during inference. We show that using this approach, we are able to unlock the
potential of intermediate layers of transformers in generating the target
output. Our sub-models remain integral components of the original model,
minimizing storage requirements and transition costs between different
computational/latency budgets. By applying this approach on LLaMa 2 13B for
tuning on the Stanford Alpaca dataset and comparing it to normal tuning and
early exit via PandaLM benchmark, we show that Sorted Fine-Tuning can deliver
models twice as fast as the original model while maintaining or exceeding
performance.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、自然言語処理(NLP)に革命をもたらした。
これらのモデルは人間のようなテキストの理解と生成に優れていますが、その広範な展開は違法に高価です。
SortedNetは、ディープニューラルネットワークの動的推論を可能にするための最近のトレーニングテクニックである。
ネットワークのモジュラリティを利用して、様々な計算負荷を持つサブモデルを作成し、ネストした方法で計算/精度特性に基づいてそれらをソートする。
我々はSortedNetを生成NLPタスクに拡張し、事前トレーニングなしで大きな言語モデルを動的にし、標準のSupervised Fine-Tuning (SFT) をSorted Fine-Tuning (SoFT) に同じコストで置き換える。
我々のアプローチはモデル効率を高め、推論中に様々なシナリオで複数のモデルの必要性をなくす。
この手法を用いて, 対象出力を生成する際に, 中間層のトランスフォーマの電位を解き放つことができることを示す。
我々のサブモデルは、ストレージ要件と異なる計算/レイテンシ予算間の遷移コストを最小限に抑えながら、元のモデルの不可欠なコンポーネントのままです。
この手法をStanford AlpacaデータセットのチューニングにLLaMa 2 13Bに適用し、通常のチューニングとPandaLMベンチマークによる早期終了と比較することにより、Sorted Fine-Tuningはオリジナルのモデルの2倍の速度で、性能を維持したり超えたりしながらモデルを提供できることを示す。
関連論文リスト
- Dynamic layer selection in decoder-only transformers [21.18795712840146]
自然言語生成のための2つの一般的な動的推論手法を実証的に検討する。
トレーニング済みのデコーダのみのモデルでは,層スキップによる層除去が著しく堅牢であることがわかった。
また、シーケンス毎の動的計算割り当ては、大きな効率向上を約束することを示す。
論文 参考訳(メタデータ) (2024-10-26T00:44:11Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - SortedNet: A Scalable and Generalized Framework for Training Modular Deep Neural Networks [30.069353400127046]
我々は、ディープニューラルネットワーク(DNN)の固有のモジュラリティを活用するためにSortedNetを提案する。
SortedNetは、メインモデルのトレーニングと同時にサブモデルのトレーニングを可能にする。
一度に160台のサブモデルを訓練でき、オリジナルのモデルの性能の少なくとも96%を達成できる。
論文 参考訳(メタデータ) (2023-09-01T05:12:25Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Rethinking embedding coupling in pre-trained language models [46.11201932668366]
我々は、事前学習された言語モデルにおける入力と出力の埋め込みの重みを共有する標準的な方法を再評価する。
分離された埋め込みによりモデリングの柔軟性が向上し、パラメータ割り当ての効率が大幅に向上することを示す。
我々は、微調整段階においてパラメータの数を増やすことなく、XTREMEベンチマークで高い性能を達成するモデルを訓練することができる。
論文 参考訳(メタデータ) (2020-10-24T07:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。