論文の概要: InfLLM: Unveiling the Intrinsic Capacity of LLMs for Understanding
Extremely Long Sequences with Training-Free Memory
- arxiv url: http://arxiv.org/abs/2402.04617v1
- Date: Wed, 7 Feb 2024 06:50:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 16:27:29.506333
- Title: InfLLM: Unveiling the Intrinsic Capacity of LLMs for Understanding
Extremely Long Sequences with Training-Free Memory
- Title(参考訳): infllm: トレーニングフリーメモリを用いた超長列理解のためのllmの固有能力
- Authors: Chaojun Xiao, Pengle Zhang, Xu Han, Guangxuan Xiao, Yankai Lin,
Zhengyan Zhang, Zhiyuan Liu, Song Han, Maosong Sun
- Abstract要約: InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
本稿では,LLMのストリーミング長列処理能力を明らかにするために,トレーニング不要なメモリベースのInfLLMを提案する。
- 参考スコア(独自算出の注目度): 99.22913822705523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have emerged as a cornerstone in real-world
applications with lengthy streaming inputs, such as LLM-driven agents. However,
existing LLMs, pre-trained on sequences with restricted maximum length, cannot
generalize to longer sequences due to the out-of-domain and distraction issues.
To alleviate these issues, existing efforts employ sliding attention windows
and discard distant tokens to achieve the processing of extremely long
sequences. Unfortunately, these approaches inevitably fail to capture
long-distance dependencies within sequences to deeply understand semantics.
This paper introduces a training-free memory-based method, InfLLM, to unveil
the intrinsic ability of LLMs to process streaming long sequences.
Specifically, InfLLM stores distant contexts into additional memory units and
employs an efficient mechanism to lookup token-relevant units for attention
computation. Thereby, InfLLM allows LLMs to efficiently process long sequences
while maintaining the ability to capture long-distance dependencies. Without
any training, InfLLM enables LLMs pre-trained on sequences of a few thousand
tokens to achieve superior performance than competitive baselines continually
training these LLMs on long sequences. Even when the sequence length is scaled
to $1,024$K, InfLLM still effectively captures long-distance dependencies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、LLM駆動エージェントのような長いストリーミング入力を持つ現実世界のアプリケーションにおいて、基盤として現れている。
しかし、最大長が制限されたシーケンスで事前訓練された既存のLLMでは、ドメイン外問題や乱れの問題により、長いシーケンスに一般化できない。
これらの問題を緩和するため、既存の作業では、非常に長いシーケンスの処理を実現するために、スライディングアテンションウィンドウを採用し、遠くのトークンを捨てている。
残念ながら、これらのアプローチは必然的に、セマンティクスを深く理解するためにシーケンス内の長距離依存性を捉えることができない。
本稿では,LLMのストリーミング長列処理能力を明らかにするために,トレーニング不要なメモリベースのInfLLMを提案する。
特に、InfLLMは、遠隔コンテキストを追加のメモリ単位に格納し、注意計算のためにトークン関連ユニットを検索する効率的なメカニズムを用いる。
これにより、InfLLMはLLMが長いシーケンスを効率的に処理できると同時に、長距離依存関係をキャプチャする機能も維持できる。
トレーニングなしでは、InfLLMは数千のトークンのシーケンスで事前トレーニングされたLLMを、長いシーケンスでこれらのLLMを継続的にトレーニングする競争ベースラインよりも優れたパフォーマンスを達成することができる。
シーケンス長が$1,024$Kにスケールしても、InfLLMは事実上長距離依存関係をキャプチャする。
関連論文リスト
- LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - Efficient Solutions For An Intriguing Failure of LLMs: Long Context Window Does Not Mean LLMs Can Analyze Long Sequences Flawlessly [6.685692482347038]
大規模言語モデル(LLM)は、長い逐次入力の解釈と解析において顕著な能力を示した。
本稿では,長い入力シーケンスを扱う場合,LLMが短くなるという,驚くべき制限を明らかにする。
本稿では,LLMの性能を最大50%向上させるアドホックな手法を提案し,評価する。
論文 参考訳(メタデータ) (2024-08-03T21:31:34Z) - SirLLM: Streaming Infinite Retentive LLM [74.40196814292426]
大きな言語モデル(LLM)は任意の長さの入力を処理し、メモリの程度を維持する。
近年の取り組みでは、過度に長いテキスト入力の圧力を軽減するためにストリーミング入力が採用されている。
本稿では,SirLLM(Streaming Infinite Retentive LLM)を提案する。
論文 参考訳(メタデータ) (2024-05-21T06:37:03Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning [67.39585115936329]
LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。
バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-01-02T18:30:51Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。