Fugu-MT 論文翻訳(概要): Farewell to Length Extrapolation, a Training-Free Infinite Context with Finite Attention Scope

論文の概要: Farewell to Length Extrapolation, a Training-Free Infinite Context with Finite Attention Scope

arxiv url: http://arxiv.org/abs/2407.15176v1
Date: Sun, 21 Jul 2024 14:23:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-23 18:59:03.843283
Title: Farewell to Length Extrapolation, a Training-Free Infinite Context with Finite Attention Scope
Title（参考訳）: 有限注意スコープによるトレーニング不要無期限文脈である長さ外挿術の問題点
Authors: Xiaoran Liu, Qipeng Guo, Yuerong Song, Zhigeng Liu, Kai Lv, Hang Yan, Linlin Li, Qun Liu, Xipeng Qiu,
Abstract要約: LongCacheは、LLMが有限コンテキストスコープで無限コンテキストをサポートすることができるトレーニング不要のアプローチである。我々はLongBenchとL-EvalでLongCacheを検証し、その性能が従来のフルアテンション機構と同等であることを実証した。 GPUを意識した最適化によって,LongCacheの効率性も近く向上します。
参考スコア（独自算出の注目度）: 68.10585571422929
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The maximum supported context length is a critical bottleneck limiting the practical application of the Large Language Model (LLM). Although existing length extrapolation methods can extend the context of LLMs to millions of tokens, these methods all have an explicit upper bound. In this work, we propose LongCache, a training-free approach that enables LLM to support an infinite context with finite context scope, through full-context cache selection and training-free integration. This effectively frees LLMs from the length extrapolation issue. We validate LongCache on the LongBench and L-Eval and demonstrate its performance is on par with traditional full-attention mechanisms. Furthermore, we have applied LongCache on mainstream LLMs, including LLaMA3 and Mistral-v0.3, enabling them to support context lengths of at least 400K in Needle-In-A-Haystack tests. We will improve the efficiency of LongCache by GPU-aware optimization soon.
Abstract（参考訳）: 最大サポートされたコンテキスト長は、LLM(Large Language Model)の実用性を制限する重要なボトルネックである。既存の長さ外挿法はLLMのコンテキストを数百万のトークンにまで拡張することができるが、これらはすべて明示的な上限を持つ。本研究では,LongCacheを提案する。LongCacheは,LLMがコンテキストスコープが有限である無限のコンテキストを,フルコンテキストキャッシュの選択とトレーニング不要の統合を通じてサポートできるようにする,トレーニングフリーなアプローチである。これにより、LLMを長さ外挿問題から効果的に解放する。我々はLongBenchとL-EvalでLongCacheを検証し、その性能が従来のフルアテンション機構と同等であることを実証した。さらに、LongCacheをLLaMA3やMistral-v0.3など主要LLMに適用し、ニードル・イン・A・ヘイスタックテストで少なくとも400Kのコンテキスト長をサポートできるようにしました。 GPUを意識した最適化によって,LongCacheの効率性も近く向上します。

関連論文リスト

InfiniteICL: Breaking the Limit of Context Window Size via Long Short-term Memory Transformation [57.310236384112834]
In-context Learning (ICL) は、大規模言語モデル(LLM)において重要であるが、その有効性は有限コンテキストウィンドウによって制約される。本稿では,LLMにおけるコンテキストとパラメータを,短期記憶と長期記憶に並列化するフレームワークであるInfiniteICLを紹介する。提案手法は,コンテキスト長を90%削減し,フルコンテキストプロンプトの平均性能を103%向上することを示した。
論文参考訳（メタデータ） (2025-04-02T13:15:44Z)
Infinite Retrieval: Attention Enhanced LLMs in Long-Context Processing [19.577278316436807]
大きな言語モデル(LLM)はコンテキストウィンドウサイズによって制限される。そこで本研究では,LLM自体の注意情報を利用して正確な検索を行う手法を提案する。 InfiniRetriは0.5Bパラメータモデルを用いて、1Mトークン上でのNeedle-In-a-Haystack(NIH)テストで100%精度を達成する。
論文参考訳（メタデータ） (2025-02-18T15:45:36Z)
InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文参考訳（メタデータ） (2025-02-13T02:52:01Z)
Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文参考訳（メタデータ） (2024-10-24T13:51:50Z)
Mesa-Extrapolation: A Weave Position Encoding Method for Enhanced Extrapolation in LLMs [12.250524667536606]
大規模言語モデル(LLM)はいまだに困難な外挿問題に悩まされている。我々はなぜ位置がないのかをよりよく理解するために理論的分析を行う。 (NoPE)は、その有効範囲外では故障し、位置のパワーを検査する。 (PE)。本稿では,チャンクベースの三角アテンション行列を用いて,最終チャンクの管理にStair-Extrapolationを適用する,新しいウィーブPE手法であるMesaExtrapolationを提案する。
論文参考訳（メタデータ） (2024-10-21T10:39:05Z)
InfiniPot: Infinite Context Processing on Memory-Constrained LLMs [17.111422610001227]
InfiniPotは、トレーニング済みの大規模言語モデルで広範囲のシーケンスを効率的に管理できるように設計された、新しいKVキャッシュ制御フレームワークである。 InfiniPotは、将来のコンテキストにアクセスしなくても、重要なデータを効果的に維持する。この研究は、広範囲の現実世界のシナリオに適用できるようにするための大きな言語モデルの実現に向けた大きな進歩を示している。
論文参考訳（メタデータ） (2024-10-02T13:09:41Z)
SirLLM: Streaming Infinite Retentive LLM [74.40196814292426]
大きな言語モデル(LLM)は任意の長さの入力を処理し、メモリの程度を維持する。近年の取り組みでは、過度に長いテキスト入力の圧力を軽減するためにストリーミング入力が採用されている。本稿では,SirLLM(Streaming Infinite Retentive LLM)を提案する。
論文参考訳（メタデータ） (2024-05-21T06:37:03Z)
An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs [54.91212829143966]
本研究では、LLaMA3の低ビット幅への量子化能力について検討する。我々は,LLaMA3の1-8ビットおよび多種多様なデータセットに対して,学習後量子化とLLaMA3のLoRAファインタニング法を10種類評価した。実験の結果,LLaMA3は言語的・視覚的文脈において,相変わらず非言語的劣化をきたしていることが明らかとなった。
論文参考訳（メタデータ） (2024-04-22T10:03:03Z)
Found in the Middle: How Language Models Use Long Contexts Better via Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。 (Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。 LLMはコンテキストの中央に位置する関連情報を扱う。
論文参考訳（メタデータ） (2024-03-05T04:58:37Z)
InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。 InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-02-07T06:50:42Z)
CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。 CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文参考訳（メタデータ） (2023-10-25T08:13:02Z)
Giraffe: Adventures in Expanding Context Lengths in LLMs [7.8327063299618]
線形スケーリングは文脈長を拡張するのに最適であることを示す。また,将来的な外挿機能についても検討した。この領域のさらなる研究を支援するために,13Bパラメータ長コンテキストモデルを新たに3つリリースする。
論文参考訳（メタデータ） (2023-08-21T17:30:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。