論文の概要: LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning
- arxiv url: http://arxiv.org/abs/2401.01325v2
- Date: Sat, 3 Feb 2024 06:13:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 03:16:09.637614
- Title: LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning
- Title(参考訳): LLMのLongLM: チューニング不要の自己拡張LDMコンテキストウィンドウ
- Authors: Hongye Jin, Xiaotian Han, Jingfeng Yang, Zhimeng Jiang, Zirui Liu,
Chia-Yuan Chang, Huiyuan Chen, Xia Hu
- Abstract要約: LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。
バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
- 参考スコア(独自算出の注目度): 70.29860436274241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is well known that LLMs cannot generalize well to long contexts whose
lengths are larger than the training sequence length. This poses challenges
when employing LLMs for processing long input sequences during inference. In
this work, we argue that LLMs themselves have inherent capabilities to handle
long contexts without fine-tuning. To achieve this goal, we propose SelfExtend
to extend the context window of LLMs by constructing bi-level attention
information: the grouped attention and the neighbor attention. The grouped
attention captures the dependencies among tokens that are far apart, while
neighbor attention captures dependencies among adjacent tokens within a
specified range. The two-level attentions are computed based on the original
model's self-attention mechanism during inference. With minor code
modification, our SelfExtend can effortlessly extend existing LLMs' context
window without any fine-tuning. We conduct comprehensive experiments on
multiple benchmarks and the results show that our SelfExtend can effectively
extend existing LLMs' context window length. The code can be found at
\url{https://github.com/datamllab/LongLM}.
- Abstract(参考訳): LLMは、トレーニングシーケンス長よりも長さが大きい長い文脈ではうまく一般化できないことはよく知られている。
これは推論中に長い入力シーケンスを処理するためにllmを使用する場合の課題となる。
本研究では,LLM自体が,微調整をせずに長いコンテキストを処理できる固有の能力を持っていることを論じる。
この目的を達成するために,両レベルの注意情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
グループ化されたアテンションは、遠く離れたトークン間の依存関係をキャプチャし、隣のアテンションは特定の範囲内のトークン間の依存関係をキャプチャする。
2段階の注意は、推論中に元のモデルの自己注意機構に基づいて計算される。
マイナーなコード修正によって、SelfExtendは、微調整なしで既存のLLMのコンテキストウィンドウを拡張することができます。
複数のベンチマークを総合的に実験した結果,既存のllmsのコンテキストウィンドウ長を効果的に拡張できることがわかった。
コードは \url{https://github.com/datamllab/LongLM} で見ることができる。
関連論文リスト
- InfLLM: Unveiling the Intrinsic Capacity of LLMs for Understanding
Extremely Long Sequences with Training-Free Memory [99.22913822705523]
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
本稿では,LLMのストリーミング長列処理能力を明らかにするために,トレーニング不要なメモリベースのInfLLMを提案する。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [50.408957515411096]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - Investigating Answerability of LLMs for Long-Form Question Answering [35.41413072729483]
実用的で影響力のある応用がいくつかあるので、長文質問応答(LFQA)に焦点を当てる。
本稿では,要約の要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成することで,困難な設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-15T07:22:56Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。