論文の概要: XL3M: A Training-free Framework for LLM Length Extension Based on Segment-wise Inference
- arxiv url: http://arxiv.org/abs/2405.17755v1
- Date: Tue, 28 May 2024 02:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 22:41:57.565184
- Title: XL3M: A Training-free Framework for LLM Length Extension Based on Segment-wise Inference
- Title(参考訳): XL3M:セグメントワイズ推論に基づくLLM長拡張のためのトレーニング不要フレームワーク
- Authors: Shengnan Wang, Youhui Bai, Lin Zhang, Pingyi Zhou, Shixiong Zhao, Gong Zhang, Sen Wang, Renhai Chen, Hua Xu, Hongwei Sun,
- Abstract要約: 本稿では,XL3Mと命名された効率的な学習自由フレームワークを提案する。これにより,短時間で訓練されたLLMが,それ以上のトレーニングや微調整を行なわずに極めて長いシーケンスを推論できる。
総合的なベンチマークによる評価は、XL3Mの優位性を示している。
- 参考スコア(独自算出の注目度): 25.669630896777484
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Length generalization failure problem, namely the large language model (LLM) fails to generalize to texts longer than its maximum training length, greatly restricts the application of LLM in the scenarios with streaming long inputs. To address this problem, the existing methods either require substantial costs or introduce precision loss. In this paper, we empirically find that the accuracy of the LLM's prediction is highly correlated to its certainty. Based on this, we propose an efficient training free framework, named XL3M (it means extra-long large language model), which enables the LLMs trained on short sequences to reason extremely long sequence without any further training or fine-tuning. Under the XL3M framework, the input context will be firstly decomposed into multiple short sub-contexts, where each sub-context contains an independent segment and a common ``question'' which is a few tokens from the end of the original context. Then XL3M gives a method to measure the relevance between each segment and the ``question'', and constructs a concise key context by splicing all the relevant segments in chronological order. The key context is further used instead of the original context to complete the inference task. Evaluations on comprehensive benchmarks show the superiority of XL3M. Using our framework, a Llama2-7B model is able to reason 20M long sequences on an 8-card Huawei Ascend 910B NPU machine with 64GB memory per card.
- Abstract(参考訳): 長大言語モデル(LLM)は最大トレーニング長よりも長いテキストへの一般化に失敗し、長い入力をストリーミングするシナリオにおけるLLMの適用を大幅に制限する。
この問題に対処するため、既存の手法は相当なコストを必要とするか、正確に損失を発生させるかのいずれかである。
本稿では, LLMの予測精度が精度と高い相関関係があることを実証的に見出した。
そこで本研究では,XL3M(超長大言語モデル)という名前の効率的な学習自由フレームワークを提案する。
XL3Mフレームワークの下では、入力コンテキストはまず複数の短いサブコンテキストに分解される。
すると、XL3M は各セグメントと `question'' の間の関連性を測定する方法を与え、関連するセグメントすべてを時系列順にスプライシングすることで、簡潔なキーコンテキストを構築する。
キーコンテキストは、推論タスクを完了するために、元のコンテキストの代わりにさらに使用される。
総合的なベンチマークによる評価は、XL3Mの優位性を示している。
我々のフレームワークを用いて、Llama2-7Bモデルは8カードのHuawei Ascend 910B NPUマシン上で、カードあたり64GBのメモリを持つ2000万の長いシーケンスを推論することができる。
関連論文リスト
- InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。
モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。
我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文 参考訳(メタデータ) (2025-02-13T02:52:01Z) - LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - PoSE: Efficient Context Window Extension of LLMs via Positional
Skip-wise Training [91.99700930388998]
固定されたコンテキストウィンドウを用いて長い入力をシミュレートする位置スキップ-wisEトレーニングを提案する。
PoSEはフル長の微調整に比べてメモリと時間オーバーヘッドを大幅に削減する。
2kのトレーニングコンテキストウィンドウを使用して,LLaMAモデルを128kトークンに拡張した。
論文 参考訳(メタデータ) (2023-09-19T08:03:38Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - Giraffe: Adventures in Expanding Context Lengths in LLMs [7.8327063299618]
線形スケーリングは文脈長を拡張するのに最適であることを示す。
また,将来的な外挿機能についても検討した。
この領域のさらなる研究を支援するために,13Bパラメータ長コンテキストモデルを新たに3つリリースする。
論文 参考訳(メタデータ) (2023-08-21T17:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。