論文の概要: Dynamic Vocabulary Pruning in Early-Exit LLMs
- arxiv url: http://arxiv.org/abs/2410.18952v2
- Date: Wed, 30 Oct 2024 15:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:29:21.223521
- Title: Dynamic Vocabulary Pruning in Early-Exit LLMs
- Title(参考訳): 初期のLDMにおける動的ボキャブラリプルーニング
- Authors: Jort Vincenti, Karim Abdel Sadek, Joan Velja, Matteo Nulli, Metod Jazbec,
- Abstract要約: 大きな言語モデル(LLM)のサイズが大きくなると、パフォーマンスが向上することが示されている。
これは、より遅く、より高価な推論のコストが伴う。
本稿では,各トークンに対して,テスト時に語彙を動的にプルーニングすることを提案する。
- 参考スコア(独自算出の注目度): 0.11983702508388193
- License:
- Abstract: Increasing the size of large language models (LLMs) has been shown to lead to better performance. However, this comes at the cost of slower and more expensive inference. Early-exiting is a promising approach for improving the efficiency of LLM inference by enabling next token prediction at intermediate layers. Yet, the large vocabulary size in modern LLMs makes the confidence estimation required for exit decisions computationally expensive, diminishing the efficiency gains. To address this, we propose dynamically pruning the vocabulary at test time for each token. Specifically, the vocabulary is pruned at one of the initial layers, and the smaller vocabulary is then used throughout the rest of the forward pass. Our experiments demonstrate that such post-hoc dynamic vocabulary pruning improves the efficiency of confidence estimation in early-exit LLMs while maintaining competitive performance.
- Abstract(参考訳): 大きな言語モデル(LLM)のサイズが大きくなると、パフォーマンスが向上することが示されている。
しかし、これはより遅く、より高価な推論のコストがかかる。
早期退避は、中間層での次のトークン予測を可能にすることにより、LCM推論の効率を改善するための有望なアプローチである。
しかし、現代のLLMにおける大語彙サイズは、エグジット決定に必要な信頼度を計算的に高価なものにし、効率性の向上を減少させる。
この問題に対処するため,各トークンに対して,テスト時に語彙を動的にプルーニングする手法を提案する。
具体的には、ボキャブラリは初期層のいずれかで刈り取られ、小さなボキャブラリはフォワードパスの残りの部分で使用される。
実験により, 初期のLDMにおける信頼性評価の効率は, 競争性能を保ちながら向上することが示された。
関連論文リスト
- Rethinking Semantic Parsing for Large Language Models: Enhancing LLM Performance with Semantic Hints [20.844061807562436]
本稿では,意味的ヒントをプロンプト内に埋め込む新しいプロンプト手法であるSENSEを提案する。
実験の結果、SENSE は様々なタスクで LLM のパフォーマンスを継続的に改善していることがわかった。
論文 参考訳(メタデータ) (2024-09-22T14:35:09Z) - An Efficient Inference Framework for Early-exit Large Language Models [5.048467183620882]
初期出力モデルでは、静止層をスキップすることでLCMの推論効率を向上し、自信があれば出力トークンを直接生成する。
早期終了モデルを考慮に入れたLLM推論フレームワークの作業はない。
我々は,(1)反復レベルの粒度のバッチ推論,(2)KVキャッシュ管理という,早期終了モデルの効率的な推論フレームワークを構築する上での2つの課題を解決する。
論文 参考訳(メタデータ) (2024-07-25T07:50:17Z) - Large Vocabulary Size Improves Large Language Models [28.83786065307658]
単語語彙サイズと大規模言語モデル(LLM)の性能の関係について検討する。
実験結果から,LLMの語彙サイズが大きくなると性能が向上することがわかった。
事前定義された語彙の代わりに新しい語彙を使用するための簡単な方法を導入する。
論文 参考訳(メタデータ) (2024-06-24T10:27:07Z) - Exploring Design Choices for Building Language-Specific LLMs [36.32622880071991]
単言語モデルと多言語モデルを適用し,言語固有の言語モデルの構築について検討する。
LLMの初期性能は適応後の最終性能と必ずしも相関しないことがわかった。
論文 参考訳(メタデータ) (2024-06-20T18:47:43Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - GrowLength: Accelerating LLMs Pretraining by Progressively Growing
Training Length [65.24730341801468]
本稿では,大規模言語モデルの事前学習プロセスを促進するために,Growlength'という,新しい,シンプルで効果的な手法を提案する。
本手法は,事前学習期間を通じてトレーニング期間を段階的に延長し,計算コストを軽減し,効率を向上する。
論文 参考訳(メタデータ) (2023-10-01T05:25:24Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。