Fugu-MT 論文翻訳(概要): Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

論文の概要: Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

arxiv url: http://arxiv.org/abs/2404.07143v2
Date: Fri, 9 Aug 2024 22:37:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-13 23:27:39.153678
Title: Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
Title（参考訳）: leave no Contexthind: Infini-attention 付き効率的な Infinite Context Transformer
Authors: Tsendsuren Munkhdalai, Manaal Faruqui, Siddharth Gopal,
Abstract要約: 本研究では,トランスフォーマーをベースとしたLarge Language Modelを,メモリと計算を境界とした無限に長い入力に拡張する効率的な手法を提案する。提案手法の重要な要素は、Infini-attentionと呼ばれる新しい注意手法である。
参考スコア（独自算出の注目度）: 6.713196608291278
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work introduces an efficient method to scale Transformer-based Large Language Models (LLMs) to infinitely long inputs with bounded memory and computation. A key component in our proposed approach is a new attention technique dubbed Infini-attention. The Infini-attention incorporates a compressive memory into the vanilla attention mechanism and builds in both masked local attention and long-term linear attention mechanisms in a single Transformer block. We demonstrate the effectiveness of our approach on long-context language modeling benchmarks, 1M sequence length passkey context block retrieval and 500K length book summarization tasks with 1B and 8B LLMs. Our approach introduces minimal bounded memory parameters and enables fast streaming inference for LLMs.
Abstract（参考訳）: 本研究では,トランスフォーマーをベースとしたLarge Language Model (LLM) を,メモリと計算を境界とした無限長入力に拡張する効率的な手法を提案する。提案手法の重要な要素は、Infini-attentionと呼ばれる新しい注意手法である。 Infiniアテンションは圧縮メモリをバニラアテンション機構に組み込み、マスクされた局所アテンションと1つのトランスフォーマーブロックの長期リニアアテンション機構の両方に構築する。長文言語モデリングベンチマーク,1Mシーケンス長のパスキーコンテキストブロック検索,および1Bおよび8B LLMを用いた500K長さの書籍要約タスクにおいて,提案手法の有効性を実証した。提案手法は最小限のメモリパラメータを導入し,LLMの高速なストリーミング推論を可能にする。

関連論文リスト

InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation [56.694702609077495]
ロングシーケンス処理は、現代の大規模言語モデルにとって重要な機能である。 InfLLM-V2は、ショートシーケンスからロングシーケンスまでのモデルをシームレスに適応する訓練可能なスパースアテンションフレームワークである。実験では、InfLLM-V2は高密度の注意より4$times$速いが、98.1%と99.7%のパフォーマンスを維持している。
論文参考訳（メタデータ） (2025-09-29T12:08:33Z)
InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文参考訳（メタデータ） (2025-02-13T02:52:01Z)
Star Attention: Efficient LLM Inference over Long Sequences [17.401430615714]
本稿では,複数のホストに注意を向けることで,計算効率を向上させる2相ブロックスパース近似であるStar Attentionを紹介する。 Star Attentionは、グローバルな注意でトレーニングされたほとんどのTransformerベースのLarge Language Modelとシームレスに統合され、95～100%の精度を維持しながら、メモリ要件と推論時間を最大11倍削減する。
論文参考訳（メタデータ） (2024-11-26T05:10:04Z)
MEMO: Fine-grained Tensor Management For Ultra-long Context LLM Training [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。 MeMOはMegatron-LMやDeepSpeedと比べて平均1.97倍と1.80倍のMFUを達成している。
論文参考訳（メタデータ） (2024-07-16T18:59:49Z)
Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文参考訳（メタデータ） (2024-05-17T00:52:39Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文参考訳（メタデータ） (2023-10-03T08:44:50Z)
Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-21T22:41:58Z)
Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文参考訳（メタデータ） (2023-05-30T19:25:51Z)
Landmark Attention: Random-Access Infinite Context Length for Transformers [45.69864961773124]
ランダムアクセスの柔軟性を維持しつつ、完全なコンテキストへのアクセスを可能にする新しいアプローチを提案する。本手法では,入力の各ブロックをランドマークトークンで表現し,関連するブロックを選択するために注目度をトレーニングする。提案手法はTransformer-XLと同等の性能を示し,各ステップで取得したトークンの数を大幅に削減する。
論文参考訳（メタデータ） (2023-05-25T17:53:42Z)
ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。 ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文参考訳（メタデータ） (2021-10-06T03:53:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。