Fugu-MT 論文翻訳(概要): LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning

論文の概要: LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning

arxiv url: http://arxiv.org/abs/2401.01325v1
Date: Tue, 2 Jan 2024 18:30:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 13:12:42.896901
Title: LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning
Title（参考訳）: LLMのLongLM: チューニング不要の自己拡張LDMコンテキストウィンドウ
Authors: Hongye Jin, Xiaotian Han, Jingfeng Yang, Zhimeng Jiang, Zirui Liu, Chia-Yuan Chang, Huiyuan Chen, Xia Hu
Abstract要約: この作業は、大規模な言語モデルに、微調整なしで長いコンテキストを扱う能力を与えます。 4行のコード修正しか行わず、提案手法は微調整なしで既存のLLMのコンテキストウインドウを拡張することができる。
参考スコア（独自算出の注目度）: 70.29860436274241
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work elicits LLMs' inherent ability to handle long contexts without fine-tuning. The limited length of the training sequence during training may limit the application of Large Language Models (LLMs) on long input sequences for inference. In this work, we argue that existing LLMs themselves have inherent capabilities for handling long contexts. Based on this argument, we suggest extending LLMs' context window by themselves to fully utilize the inherent ability.We propose Self-Extend to stimulate LLMs' long context handling potential. The basic idea is to construct bi-level attention information: the group level and the neighbor level. The two levels are computed by the original model's self-attention, which means the proposed does not require any training. With only four lines of code modification, the proposed method can effortlessly extend existing LLMs' context window without any fine-tuning. We conduct comprehensive experiments and the results show that the proposed method can effectively extend existing LLMs' context window's length.
Abstract（参考訳）: この研究は、LLMが微調整なしで長いコンテキストを扱う能力を引き出す。トレーニング中のトレーニングシーケンスの長さの制限は、推論のための長い入力シーケンスに対するLarge Language Models (LLM)の適用を制限する可能性がある。本研究では,既存のLLM自体が長いコンテキストを扱う固有の能力を持っていることを論じる。本論では,LLMのコンテキスト処理能力を最大限に活用するために,LLMのコンテキストウィンドウを単独で拡張することを提案する。基本的な考え方は、グループレベルと近隣レベルという2段階の注意情報を構築することである。 2つのレベルは、オリジナルのモデルの自己注意によって計算される。 4行のコード修正しか行わず、提案手法は微調整なしで既存のLLMのコンテキストウインドウを拡張することができる。提案手法は,既存のLLMのコンテキストウィンドウの長さを効果的に拡張できることを示す。

関連論文リスト

LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs [63.580867975515474]
拡散LDMと従来の自己回帰LDMの長文性能を比較検討する。 LLaDAとNTKベースのRoPE外挿法を統合したLongLLaDAを提案する。
論文参考訳（メタデータ） (2025-06-17T11:45:37Z)
TracLLM: A Generic Framework for Attributing Long Context LLMs [34.802736332993994]
我々は,長期LLMに適した最初の汎用コンテキストトレースバックフレームワークであるTracLLMを開発した。我々のフレームワークは、既存の特徴属性手法の有効性と効率を向上させることができる。評価の結果,TracLLMはLLMの出力に繋がる長い文脈でテキストを効果的に識別できることがわかった。
論文参考訳（メタデータ） (2025-06-04T17:48:16Z)
Thus Spake Long-Context Large Language Model [70.49178031298953]
ロングコンテキストは自然言語処理(NLP)において重要なトピックである LLM(Large Language Models)は、LLMに人間に似た生涯学習の可能性を付与する大きな機会を提供する。過去2年間で、LLMのコンテキスト長は数百万のトークンに対するブレークスルー拡張を達成した。長文LLMの研究は、長さの外挿からアーキテクチャ、インフラ、トレーニング、評価技術への包括的焦点へと拡大した。
論文参考訳（メタデータ） (2025-02-24T13:19:33Z)
Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文参考訳（メタデータ） (2024-11-07T18:59:27Z)
LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。 LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文参考訳（メタデータ） (2024-08-31T17:19:30Z)
LongIns: A Challenging Long-context Instruction-based Exam for LLMs [44.51209510772957]
大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。本稿ではLongInsベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2024-06-25T14:31:26Z)
Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。 LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文参考訳（メタデータ） (2024-05-10T11:44:05Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。 InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-02-07T06:50:42Z)
Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文参考訳（メタデータ） (2024-01-13T07:57:01Z)
Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文参考訳（メタデータ） (2023-11-14T18:57:15Z)
Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。 Retrieval-augmentation対ロングコンテキストウィンドウ。両方の方法を組み合わせることで、両方の世界を最大限に活用できますか? 我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文参考訳（メタデータ） (2023-10-04T17:59:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。