論文の概要: ReAttention: Training-Free Infinite Context with Finite Attention Scope
- arxiv url: http://arxiv.org/abs/2407.15176v2
- Date: Sat, 5 Oct 2024 02:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 15:56:37.711216
- Title: ReAttention: Training-Free Infinite Context with Finite Attention Scope
- Title(参考訳): ReAttention: 有限注意スコープによる学習自由無期限文脈
- Authors: Xiaoran Liu, Ruixiao Li, Qipeng Guo, Zhigeng Liu, Yuerong Song, Kai Lv, Hang Yan, Linlin Li, Qun Liu, Xipeng Qiu,
- Abstract要約: LLM(Large Language Models)の長期コンテキスト能力は大きなブレークスルーをもたらしたが、サポート対象の最大コンテキスト長は、実用的アプリケーションを制限する重要なボトルネックのままである。
本稿では,bftextReAttentionを提案する。bftextReAttentionは,自己アテンション機構をベースとしたLLMが,十分なメモリリソースの下で有限の注意範囲を持つ無限コンテキストをサポート可能な学習自由な手法である。
本稿では,LongBench,L-Eval,InfiniteBenchにおけるReAttentionの性能を検証し,従来の手法と同等であることを示す。
- 参考スコア(独自算出の注目度): 65.91272939057592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The long-context capability of the Large Language Models (LLM) has made significant breakthroughs, but the maximum supported context length remains a critical bottleneck limiting their practical applications. The constraint of context length in LLMs arises from the self-attention mechanism, which cannot effectively and efficiently capture the semantic relationships within infinitely long contexts via the limited pre-trained positional information and attention scope. In this work, we propose \textbf{ReAttention}, a training-free approach enabling LLM based on the self-attention mechanism to support an infinite context with a finite attention scope under sufficient memory resources. ReAttention performs the position-agnostic top-$k$ attention before the ordinary position-aware self-attention, freeing LLMs from the length extrapolation issue. We validate the performance of ReAttention on the LongBench, L-Eval, and InfiniteBench and demonstrate that it is on par with traditional methods. Furthermore, we also apply ReAttention on mainstream LLMs, including LLaMA3.1-8B and Mistral-v0.3-7B, enabling them to support context lengths of at least 1M and even expanding the context length of LLaMA3.2-3B-chat by 128$\times$ to 4M without any further training in Needle-In-A-Haystack tests. We also improve the efficiency of ReAttention with Triton and achieve an efficient extrapolation without additional overhead.
- Abstract(参考訳): LLM(Large Language Models)の長期コンテキスト機能は大きなブレークスルーをもたらしたが、サポート対象の最大コンテキスト長は、実用アプリケーションを制限する重要なボトルネックのままである。
LLMにおける文脈長の制約は、制限された事前訓練された位置情報と注意範囲を通して無限に長いコンテキスト内の意味的関係を効果的に、効率的にキャプチャできない自己認識機構から生じる。
本研究では,自己認識機構に基づくLLMが,十分なメモリリソースの下で有限の注意範囲を持つ無限コンテキストをサポート可能な,学習不要なアプローチである「textbf{ReAttention}」を提案する。
ReAttentionは、通常の位置認識自己注意の前に位置認識不要のトップ$kの注意を実行し、LLMを長さ外挿問題から解放する。
本稿では,LongBench,L-Eval,InfiniteBenchにおけるReAttentionの性能を検証し,従来の手法と同等であることを示す。
さらに,LLaMA3.1-8B や Mistral-v0.3-7B などの主流 LLM にもReAttention を適用し,LLaMA3.2-3B-chat のコンテキスト長を 18$\times$ から 4M まで拡張できる。
また、TritonによるReAttentionの効率を改善し、追加のオーバーヘッドを伴わずに効率的な外挿を実現する。
関連論文リスト
- Infinite Retrieval: Attention Enhanced LLMs in Long-Context Processing [19.577278316436807]
大きな言語モデル(LLM)はコンテキストウィンドウサイズによって制限される。
そこで本研究では,LLM自体の注意情報を利用して正確な検索を行う手法を提案する。
InfiniRetriは0.5Bパラメータモデルを用いて、1Mトークン上でのNeedle-In-a-Haystack(NIH)テストで100%精度を達成する。
論文 参考訳(メタデータ) (2025-02-18T15:45:36Z) - InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。
モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。
我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文 参考訳(メタデータ) (2025-02-13T02:52:01Z) - Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - Mesa-Extrapolation: A Weave Position Encoding Method for Enhanced Extrapolation in LLMs [12.250524667536606]
大規模言語モデル(LLM)はいまだに困難な外挿問題に悩まされている。
我々はなぜ位置がないのかをよりよく理解するために理論的分析を行う。
(NoPE)は、その有効範囲外では故障し、位置のパワーを検査する。
(PE)。
本稿では,チャンクベースの三角アテンション行列を用いて,最終チャンクの管理にStair-Extrapolationを適用する,新しいウィーブPE手法であるMesaExtrapolationを提案する。
論文 参考訳(メタデータ) (2024-10-21T10:39:05Z) - InfiniPot: Infinite Context Processing on Memory-Constrained LLMs [17.111422610001227]
InfiniPotは、トレーニング済みの大規模言語モデルで広範囲のシーケンスを効率的に管理できるように設計された、新しいKVキャッシュ制御フレームワークである。
InfiniPotは、将来のコンテキストにアクセスしなくても、重要なデータを効果的に維持する。
この研究は、広範囲の現実世界のシナリオに適用できるようにするための大きな言語モデルの実現に向けた大きな進歩を示している。
論文 参考訳(メタデータ) (2024-10-02T13:09:41Z) - Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。