Fugu-MT 論文翻訳(概要): Anchor-based Large Language Models

論文の概要: Anchor-based Large Language Models

arxiv url: http://arxiv.org/abs/2402.07616v1
Date: Mon, 12 Feb 2024 12:48:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 14:32:58.642232
Title: Anchor-based Large Language Models
Title（参考訳）: アンカーベース大規模言語モデル
Authors: Jianhui Pang, Fanghua Ye, Derek F. Wong, Longyue Wang
Abstract要約: 本研究では,アンカーベースの自己アテンションネットワーク(AnSAN)とアンカーベースの推論戦略を利用するアンカーベースのLSM(AnLLM)を紹介する。実験によると、AnLLMは、最大99%のキー/バリューキャッシュの削減と最大3.5倍の高速推論で、同等の精度を維持している。
参考スコア（独自算出の注目度）: 48.5524307381447
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) predominantly employ decoder-only transformer architectures, necessitating the retention of keys/values information for historical tokens to provide contextual information and avoid redundant computation. However, the substantial size and parameter volume of these LLMs require massive GPU memory. This memory demand increases with the length of the input text, leading to an urgent need for more efficient methods of information storage and processing. This study introduces the Anchor-based LLM (AnLLM), which utilizes an innovative anchor-based self-attention network (AnSAN) and also an anchor-based inference strategy. This approach enables LLMs to compress sequence information into an anchor token, reducing the keys/values cache and enhancing inference efficiency. Experiments show that the AnLLM maintains comparable accuracy with up to 99% keys/values cache reduction and up to 3.5 times faster inference. Despite a minor compromise in accuracy, the AnLLM significantly improves computational efficiency and resource utilization, demonstrating the potential of the anchor-based attention approach in the context of LLMs for real-time inference in practical applications.
Abstract（参考訳）: 大規模言語モデル(llms)は主にデコーダのみのトランスフォーマーアーキテクチャを採用しており、歴史的トークンのキー/バリュー情報の保持を必要とし、コンテキスト情報を提供し、冗長な計算を避ける。しかし、これらのLLMのかなりのサイズとパラメータボリュームは、大量のGPUメモリを必要とする。このメモリ需要は入力テキストの長さとともに増大し、情報保存と処理のより効率的な方法が緊急に必要となる。本研究では,アンカーベース自己注意ネットワーク(AnSAN)とアンカーベース推論戦略を利用するアンカーベースLPM(AnLLM)を紹介する。このアプローチにより、LLMはシーケンス情報をアンカートークンに圧縮し、キー/値キャッシュを削減し、推論効率を向上させる。実験によると、AnLLMは最大99%のキー/バリューキャッシュの削減と最大3.5倍の高速推論で同等の精度を維持している。精度の小さな妥協にもかかわらず、AnLLMは計算効率と資源利用を著しく改善し、実用的な応用におけるリアルタイム推論のためのLLMにおけるアンカーベースアテンションアプローチの可能性を示した。

関連論文リスト

Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。 CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文参考訳（メタデータ） (2024-12-16T13:01:53Z)
InstCache: A Predictive Cache for LLM Serving [6.076957323090607]
キャッシング技術は、大規模言語モデル推論エンジンのパフォーマンスを最適化する機会を提供する。命令の内容と長さのばらつきが大きいため、同じ命令が短時間のウィンドウ内で再帰することは稀である。 LLMサービスシステムの予測キャッシュ機構であるInstCacheを提案する。
論文参考訳（メタデータ） (2024-11-21T03:52:41Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文参考訳（メタデータ） (2024-11-11T02:47:05Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。 LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。 LASERは公開データセットの3～5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文参考訳（メタデータ） (2024-08-11T02:31:13Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Beyond KV Caching: Shared Attention for Efficient LLMs [5.801044612920816]
本稿では,大規模言語モデル(LLM)の効率を高めるための新しい共有注意機構を提案する。提案手法は,先進LLMにおいて観測される注意分布の等方性傾向を利用して,予測に必要な計算フロップとKVキャッシュのサイズを減少させる。以上の結果から,SAは計算資源の保存だけでなく,頑健なモデル性能も維持し,資源制約環境におけるより効率的なLCMの展開を容易にすることが示唆された。
論文参考訳（メタデータ） (2024-07-13T07:23:07Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV Caching [9.884452250478216]
我々は,KVキャッシングによる課題に対処するアルゴリズム-システム共設計ソリューションであるALISAを提案する。アルゴリズムレベルでは、ALISAはスパースウィンドウ注意(SWA)アルゴリズムを介して新しいトークンを生成する上で最も重要なトークンを優先順位付けする。システムレベルでは、ALISAは3フェーズのトークンレベルの動的スケジューリングを採用し、キャッシュと再計算の間のトレードオフを最適化する。
論文参考訳（メタデータ） (2024-03-26T01:46:34Z)
Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。 MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文参考訳（メタデータ） (2024-03-07T08:34:57Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
Efficient LLM inference solution on Intel GPU [19.154403468201924]
トランスフォーマーベースの大規模言語モデル(LLM)は多くの分野で広く使われている。低レイテンシかつ高スループットで効率的なLLM推論ソリューションを提案する。標準的なHuggingFaceの実装と比較して、提案されたソリューションは最大で7倍のトークンレイテンシと27倍のスループットを実現している。
論文参考訳（メタデータ） (2023-12-19T05:40:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。