論文の概要: Farewell to Length Extrapolation, a Training-Free Infinite Context with Finite Attention Scope
- arxiv url: http://arxiv.org/abs/2407.15176v1
- Date: Sun, 21 Jul 2024 14:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 18:59:03.843283
- Title: Farewell to Length Extrapolation, a Training-Free Infinite Context with Finite Attention Scope
- Title(参考訳): 有限注意スコープによるトレーニング不要無期限文脈である長さ外挿術の問題点
- Authors: Xiaoran Liu, Qipeng Guo, Yuerong Song, Zhigeng Liu, Kai Lv, Hang Yan, Linlin Li, Qun Liu, Xipeng Qiu,
- Abstract要約: LongCacheは、LLMが有限コンテキストスコープで無限コンテキストをサポートすることができるトレーニング不要のアプローチである。
我々はLongBenchとL-EvalでLongCacheを検証し、その性能が従来のフルアテンション機構と同等であることを実証した。
GPUを意識した最適化によって,LongCacheの効率性も近く向上します。
- 参考スコア(独自算出の注目度): 68.10585571422929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The maximum supported context length is a critical bottleneck limiting the practical application of the Large Language Model (LLM). Although existing length extrapolation methods can extend the context of LLMs to millions of tokens, these methods all have an explicit upper bound. In this work, we propose LongCache, a training-free approach that enables LLM to support an infinite context with finite context scope, through full-context cache selection and training-free integration. This effectively frees LLMs from the length extrapolation issue. We validate LongCache on the LongBench and L-Eval and demonstrate its performance is on par with traditional full-attention mechanisms. Furthermore, we have applied LongCache on mainstream LLMs, including LLaMA3 and Mistral-v0.3, enabling them to support context lengths of at least 400K in Needle-In-A-Haystack tests. We will improve the efficiency of LongCache by GPU-aware optimization soon.
- Abstract(参考訳): 最大サポートされたコンテキスト長は、LLM(Large Language Model)の実用性を制限する重要なボトルネックである。
既存の長さ外挿法はLLMのコンテキストを数百万のトークンにまで拡張することができるが、これらはすべて明示的な上限を持つ。
本研究では,LongCacheを提案する。LongCacheは,LLMがコンテキストスコープが有限である無限のコンテキストを,フルコンテキストキャッシュの選択とトレーニング不要の統合を通じてサポートできるようにする,トレーニングフリーなアプローチである。
これにより、LLMを長さ外挿問題から効果的に解放する。
我々はLongBenchとL-EvalでLongCacheを検証し、その性能が従来のフルアテンション機構と同等であることを実証した。
さらに、LongCacheをLLaMA3やMistral-v0.3など主要LLMに適用し、ニードル・イン・A・ヘイスタックテストで少なくとも400Kのコンテキスト長をサポートできるようにしました。
GPUを意識した最適化によって,LongCacheの効率性も近く向上します。
関連論文リスト
- Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - Mesa-Extrapolation: A Weave Position Encoding Method for Enhanced Extrapolation in LLMs [12.250524667536606]
大規模言語モデル(LLM)はいまだに困難な外挿問題に悩まされている。
我々はなぜ位置がないのかをよりよく理解するために理論的分析を行う。
(NoPE)は、その有効範囲外では故障し、位置のパワーを検査する。
(PE)。
本稿では,チャンクベースの三角アテンション行列を用いて,最終チャンクの管理にStair-Extrapolationを適用する,新しいウィーブPE手法であるMesaExtrapolationを提案する。
論文 参考訳(メタデータ) (2024-10-21T10:39:05Z) - InfiniPot: Infinite Context Processing on Memory-Constrained LLMs [17.111422610001227]
InfiniPotは、トレーニング済みの大規模言語モデルで広範囲のシーケンスを効率的に管理できるように設計された、新しいKVキャッシュ制御フレームワークである。
InfiniPotは、将来のコンテキストにアクセスしなくても、重要なデータを効果的に維持する。
この研究は、広範囲の現実世界のシナリオに適用できるようにするための大きな言語モデルの実現に向けた大きな進歩を示している。
論文 参考訳(メタデータ) (2024-10-02T13:09:41Z) - An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs [54.91212829143966]
本研究では、LLaMA3の低ビット幅への量子化能力について検討する。
我々は,LLaMA3の1-8ビットおよび多種多様なデータセットに対して,学習後量子化とLLaMA3のLoRAファインタニング法を10種類評価した。
実験の結果,LLaMA3は言語的・視覚的文脈において,相変わらず非言語的劣化をきたしていることが明らかとなった。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。