論文の概要: LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning
- arxiv url: http://arxiv.org/abs/2401.01325v3
- Date: Thu, 11 Jul 2024 06:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 23:27:37.528172
- Title: LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning
- Title(参考訳): LLMのLongLM: チューニング不要の自己拡張LDMコンテキストウィンドウ
- Authors: Hongye Jin, Xiaotian Han, Jingfeng Yang, Zhimeng Jiang, Zirui Liu, Chia-Yuan Chang, Huiyuan Chen, Xia Hu,
- Abstract要約: LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。
バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
- 参考スコア(独自算出の注目度): 67.39585115936329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is well known that LLMs cannot generalize well to long contexts whose lengths are larger than the training sequence length. This poses challenges when employing LLMs for processing long input sequences during inference. In this work, we argue that LLMs themselves have inherent capabilities to handle long contexts without fine-tuning. To achieve this goal, we propose SelfExtend to extend the context window of LLMs by constructing bi-level attention information: the grouped attention and the neighbor attention. The grouped attention captures the dependencies among tokens that are far apart, while neighbor attention captures dependencies among adjacent tokens within a specified range. The two-level attentions are computed based on the original model's self-attention mechanism during inference. With minor code modification, our SelfExtend can effortlessly extend existing LLMs' context window without any fine-tuning. We conduct comprehensive experiments on multiple benchmarks and the results show that our SelfExtend can effectively extend existing LLMs' context window length. The code can be found at \url{https://github.com/datamllab/LongLM}.
- Abstract(参考訳): LLMはトレーニングシーケンス長よりも長さが大きい長い文脈ではうまく一般化できないことはよく知られている。
これは、推論中に長い入力シーケンスを処理するためにLLMを使用する場合の課題である。
本研究では,LLM自体が,微調整をせずに長いコンテキストを処理できる固有の能力を持っていることを論じる。
この目的を達成するために,両レベルの注意情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
グループ化されたアテンションは、遠く離れたトークン間の依存関係をキャプチャし、隣のアテンションは、指定された範囲内の隣のトークン間の依存関係をキャプチャする。
2レベルアテンションは、推論中に元のモデルの自己アテンションメカニズムに基づいて計算される。
マイナーなコード修正によって、SelfExtendは、微調整なしで既存のLLMのコンテキストウィンドウを拡張することができます。
複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
コードは \url{https://github.com/datamllab/LongLM} で見ることができる。
関連論文リスト
- Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。
興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。
有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - LongIns: A Challenging Long-context Instruction-based Exam for LLMs [44.51209510772957]
大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。
本稿ではLongInsベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-25T14:31:26Z) - Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。
セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。
LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。
エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文 参考訳(メタデータ) (2024-05-10T11:44:05Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。