論文の概要: Not all Layers of LLMs are Necessary during Inference
- arxiv url: http://arxiv.org/abs/2403.02181v1
- Date: Mon, 4 Mar 2024 16:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:07:09.770407
- Title: Not all Layers of LLMs are Necessary during Inference
- Title(参考訳): LLMの全ての層は推論時に必要であるとは限らない
- Authors: Siqi Fan, Xin Jiang, Xiang Li, Xuying Meng, Peng Han, Shuo Shang,
Aixin Sun, Yequan Wang, Zhongyuan Wang
- Abstract要約: LLM(Large Language Models)の理想的な推論段階は、その能力を維持しながら少ない計算資源を利用できる。
本稿では,AdaInfer という単純なアルゴリズムを用いて,入力インスタンスを適応的に推定する手法を提案する。
実験によると、AdaInferは平均14.8%の計算リソースを節約し、最大50%の感情タスクを削減し、同等のパフォーマンスを維持している。
- 参考スコア(独自算出の注目度): 71.47726067940539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The inference phase of Large Language Models (LLMs) is very expensive. An
ideal inference stage of LLMs could utilize fewer computational resources while
still maintaining its capabilities (e.g., generalization and in-context
learning ability). In this paper, we try to answer the question, "During LLM
inference, can we use shallow layers for easy instances; and deep layers for
hard ones?" To answer this question, we first indicate that Not all Layers are
Necessary during Inference by statistically analyzing the activated layers
across tasks. Then, we propose a simple algorithm named AdaInfer to determine
the inference termination moment based on the input instance adaptively. More
importantly, AdaInfer does not alter LLM parameters and maintains
generalizability across tasks. Experiments on well-known LLMs (i.e., Llama2
series and OPT) show that AdaInfer saves an average of 14.8% of computational
resources, even up to 50% on sentiment tasks, while maintaining comparable
performance. Additionally, this method is orthogonal to other model
acceleration techniques, potentially boosting inference efficiency further.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論フェーズは非常に高価である。
LLMの理想的な推論段階は、その能力(例えば、一般化と文脈内学習能力)を維持しながら少ない計算資源を利用することができる。
本稿では,LLM推論の間,簡単なインスタンスに浅いレイヤ,難しいインスタンスに深いレイヤを使用できるか,という問いに答える。
この質問に答えるために、まず、タスク間で活性化されたレイヤを統計的に分析することで、すべてのレイヤが推論中に必要ではないことを示す。
そこで我々はAdaInferという簡単なアルゴリズムを提案し,入力インスタンスを適応的に予測終了モーメントを決定する。
さらに重要なことに、adainferはllmパラメータを変更しず、タスク間の一般化性を維持する。
有名なLLM(Llama2シリーズとOPT)の実験では、AdaInferは平均14.8%の計算リソースを節約し、最大50%の感情タスクを節約し、同等のパフォーマンスを維持している。
さらに、この方法は他のモデル加速技術と直交し、推論効率をさらに高める可能性がある。
関連論文リスト
- Are More LLM Calls All You Need? Towards Scaling Laws of Compound
Inference Systems [80.54551166283805]
本研究では,Large Language Model (LLM) の呼び出し回数が1層投票システムの性能に与える影響について検討する。
この非単調性は,タスク内の問合せの難しさの多様性に起因すると考えられる。
論文 参考訳(メタデータ) (2024-03-04T19:12:48Z) - Online Cascade Learning for Efficient Inference over Streams [10.209413593540134]
大規模言語モデル(LLM)は、データストリームに関する複雑なクエリに応答する自然な役割を持つ。
この課題に対処する最初のアプローチであるオンラインカスケード学習を提案する。
我々は,オンラインのカスケードを模倣学習問題として学習するタスクを定式化し,その問題に対する非回帰アルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-02-07T01:46:50Z) - Efficient LLM Inference on CPUs [8.802223672775844]
大規模言語モデル(LLM)は、幅広いタスクにおいて、顕著なパフォーマンスと大きなポテンシャルを示してきた。
これらのモデルのデプロイは、天文学的なモデルパラメータの量のために困難でした。
LLMのデプロイをより効率的にするための効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-01T13:08:50Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Can Large Language Models Infer Causation from Correlation? [80.38419293391397]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Enabling Intelligent Interactions between an Agent and an LLM: A
Reinforcement Learning Approach [33.24651276102073]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。