論文の概要: Anchor-based Large Language Models
- arxiv url: http://arxiv.org/abs/2402.07616v2
- Date: Fri, 16 Feb 2024 16:58:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 18:57:00.558035
- Title: Anchor-based Large Language Models
- Title(参考訳): アンカーベース大規模言語モデル
- Authors: Jianhui Pang, Fanghua Ye, Derek F. Wong, Longyue Wang
- Abstract要約: 本研究ではアンカーベースの自己アテンションネットワーク(AnSAN)とアンカーベースの推論戦略を利用するアンカーベースのLSM(AnLLM)を紹介する。
AnLLMも同様の精度を維持し、最大99%のキー/バリューキャッシュの削減、最大3.5倍の高速推論を実現している。
- 参考スコア(独自算出の注目度): 48.5524307381447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) predominantly employ decoder-only transformer
architectures, necessitating the retention of keys/values information for
historical tokens to provide contextual information and avoid redundant
computation. However, the substantial size and parameter volume of these LLMs
require massive GPU memory. This memory demand increases with the length of the
input text, leading to an urgent need for more efficient methods of information
storage and processing. This study introduces Anchor-based LLMs (AnLLMs), which
utilize an innovative anchor-based self-attention network (AnSAN) and also an
anchor-based inference strategy. This approach enables LLMs to compress
sequence information into an anchor token, reducing the keys/values cache and
enhancing inference efficiency. Experiments on question-answering benchmarks
reveal that AnLLMs maintain similar accuracy levels while achieving up to 99%
keys/values cache reduction and up to 3.5 times faster inference. Despite a
minor compromise in accuracy, the substantial enhancements of AnLLMs employing
the AnSAN technique in resource utilization and computational efficiency
underscore their potential for practical LLM applications.
- Abstract(参考訳): 大規模言語モデル(llms)は主にデコーダのみのトランスフォーマーアーキテクチャを採用しており、歴史的トークンのキー/バリュー情報の保持を必要とし、コンテキスト情報を提供し、冗長な計算を避ける。
しかし、これらのLLMのかなりのサイズとパラメータボリュームは、大量のGPUメモリを必要とする。
このメモリ需要は入力テキストの長さとともに増大し、情報保存と処理のより効率的な方法が緊急に必要となる。
本研究では,アンカーベースの自己アテンションネットワーク(AnSAN)とアンカーベースの推論戦略を利用するアンカーベースのLSM(AnLLM)を紹介する。
このアプローチにより、LLMはシーケンス情報をアンカートークンに圧縮し、キー/値キャッシュを削減し、推論効率を向上させる。
質問応答ベンチマークの実験では、AnLLMsも同様の精度を維持し、最大99%のキー/値キャッシュの削減と最大3.5倍の高速推論を実現している。
精度の小さな妥協にもかかわらず、AnSAN技術を用いたAnLLMの資源利用と計算効率の大幅な向上は、実用的なLCMアプリケーションの可能性を強調した。
関連論文リスト
- Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [86.91360597169563]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
本稿では,新しい文書から情報を圧縮・抽出するメモリ拡張手法を提案する。
実験では,オンライン適応性能,時間,メモリ効率など,MACの複数の面での優位性を実証した。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Efficient LLM inference solution on Intel GPU [15.986315440248294]
トランスフォーマーベースの大規模言語モデル(LLM)は多くの分野で広く使われている。
低レイテンシかつ高スループットで効率的なLLM推論ソリューションを提案する。
標準的なHuggingFaceの実装と比較して、提案されたソリューションは最大で7倍のトークンレイテンシと27倍のスループットを実現している。
論文 参考訳(メタデータ) (2023-12-19T05:40:43Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language
Models [88.19189563759942]
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
パラメータの更新がないため、2Kまたは4Kのセグメントで事前訓練されたLLMは、パープレキシティを維持しながら最大2億の入力を一般化することができる。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - In-context Autoencoder for Context Compression in a Large Language Model [74.9807417009054]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。