論文の概要: LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning
- arxiv url: http://arxiv.org/abs/2401.01325v1
- Date: Tue, 2 Jan 2024 18:30:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 13:12:42.896901
- Title: LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning
- Title(参考訳): LLMのLongLM: チューニング不要の自己拡張LDMコンテキストウィンドウ
- Authors: Hongye Jin, Xiaotian Han, Jingfeng Yang, Zhimeng Jiang, Zirui Liu,
Chia-Yuan Chang, Huiyuan Chen, Xia Hu
- Abstract要約: この作業は、大規模な言語モデルに、微調整なしで長いコンテキストを扱う能力を与えます。
4行のコード修正しか行わず、提案手法は微調整なしで既存のLLMのコンテキストウインドウを拡張することができる。
- 参考スコア(独自算出の注目度): 70.29860436274241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work elicits LLMs' inherent ability to handle long contexts without
fine-tuning. The limited length of the training sequence during training may
limit the application of Large Language Models (LLMs) on long input sequences
for inference. In this work, we argue that existing LLMs themselves have
inherent capabilities for handling long contexts. Based on this argument, we
suggest extending LLMs' context window by themselves to fully utilize the
inherent ability.We propose Self-Extend to stimulate LLMs' long context
handling potential. The basic idea is to construct bi-level attention
information: the group level and the neighbor level. The two levels are
computed by the original model's self-attention, which means the proposed does
not require any training. With only four lines of code modification, the
proposed method can effortlessly extend existing LLMs' context window without
any fine-tuning. We conduct comprehensive experiments and the results show that
the proposed method can effectively extend existing LLMs' context window's
length.
- Abstract(参考訳): この研究は、LLMが微調整なしで長いコンテキストを扱う能力を引き出す。
トレーニング中のトレーニングシーケンスの長さの制限は、推論のための長い入力シーケンスに対するLarge Language Models (LLM)の適用を制限する可能性がある。
本研究では,既存のLLM自体が長いコンテキストを扱う固有の能力を持っていることを論じる。
本論では,LLMのコンテキスト処理能力を最大限に活用するために,LLMのコンテキストウィンドウを単独で拡張することを提案する。
基本的な考え方は、グループレベルと近隣レベルという2段階の注意情報を構築することである。
2つのレベルは、オリジナルのモデルの自己注意によって計算される。
4行のコード修正しか行わず、提案手法は微調整なしで既存のLLMのコンテキストウインドウを拡張することができる。
提案手法は,既存のLLMのコンテキストウィンドウの長さを効果的に拡張できることを示す。
関連論文リスト
- Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - InfLLM: Unveiling the Intrinsic Capacity of LLMs for Understanding
Extremely Long Sequences with Training-Free Memory [99.22913822705523]
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
本稿では,LLMのストリーミング長列処理能力を明らかにするために,トレーニング不要なメモリベースのInfLLMを提案する。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - Investigating Answerability of LLMs for Long-Form Question Answering [35.41413072729483]
実用的で影響力のある応用がいくつかあるので、長文質問応答(LFQA)に焦点を当てる。
本稿では,要約の要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成することで,困難な設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-15T07:22:56Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。