論文の概要: LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language
Models
- arxiv url: http://arxiv.org/abs/2308.16137v6
- Date: Sat, 9 Mar 2024 19:14:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:28:39.213235
- Title: LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language
Models
- Title(参考訳): lm-infinite:大言語モデルのためのゼロショット極長一般化
- Authors: Chi Han, Qifan Wang, Hao Peng, Wenhan Xiong, Yu Chen, Heng Ji, Sinong
Wang
- Abstract要約: この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
パラメータの更新がないため、2Kまたは4Kのセグメントで事前訓練されたLLMは、パープレキシティを維持しながら最大2億の入力を一般化することができる。
- 参考スコア(独自算出の注目度): 88.19189563759942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today's large language models (LLMs) typically train on short text segments
(e.g., <4K tokens) due to the quadratic complexity of their Transformer
architectures. As a result, their performance suffers drastically on inputs
longer than those encountered during training, substantially limiting their
applications in real-world tasks involving long contexts such as encoding
scientific articles, code repositories, or long dialogues. Through theoretical
analysis and empirical investigation, this work identifies three major factors
contributing to this length generalization failure. Our theoretical analysis
further reveals that commonly used techniques like truncating the attention
window or relative positional encodings are inadequate to address them.
Answering these challenges, we propose LM-Infinite, a simple and effective
method for enhancing LLMs' capabilities of handling long contexts. LM-Infinite
is highly flexible and can be used with most modern LLMs off-the-shelf. Without
any parameter updates, it allows LLMs pre-trained with 2K or 4K-long segments
to generalize to up to 200M length inputs while retaining perplexity. It also
improves performance on downstream tasks such as Passkey Retrieval and Qasper
in the zero-shot setting. LM-Infinite brings substantial efficiency
improvements: it achieves 2.7x decoding speed up and 7.5x memory saving over
the original model. Our code will be publicly available upon publication.
- Abstract(参考訳): 今日の大きな言語モデル(LLM)は、Transformerアーキテクチャの2次複雑さのため、通常は短いテキストセグメント(例:<4Kトークン)でトレーニングされる。
結果として、彼らのパフォーマンスは、トレーニング中に遭遇したものよりもはるかに長いインプットに悩まされ、科学論文のエンコーディングやコードレポジトリ、ロングダイアログといった長いコンテキストを含む現実のタスクへの応用を著しく制限する。
理論的解析と実証的研究を通じて、この長大一般化失敗に寄与する3つの主要な要因を同定する。
さらに理論解析により,注意窓の切断や相対的な位置符号化といった一般的な手法では対処が不十分であることが判明した。
これらの課題に答え、長いコンテキストを扱うLLMの能力をシンプルかつ効果的に向上するLM-Infiniteを提案する。
LM-Infiniteは非常に柔軟で、ほとんどの近代的なLCMで使用することができる。
パラメータの更新がなければ、2kまたは4kの長さのセグメントで事前トレーニングされたllmsは、パープレキシティを維持しながら最大200mまでの入力を一般化できる。
ゼロショット設定では、Passkey RetrievalやQasperといった下流タスクのパフォーマンスも向上する。
LM-Infiniteは2.7倍のデコード速度と7.5倍のメモリ節約を実現している。
私たちのコードは出版時に公開されます。
関連論文リスト
- Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [16.66039039507951]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - Anchor-based Large Language Models [48.5524307381447]
本研究ではアンカーベースの自己アテンションネットワーク(AnSAN)とアンカーベースの推論戦略を利用するアンカーベースのLSM(AnLLM)を紹介する。
AnLLMも同様の精度を維持し、最大99%のキー/バリューキャッシュの削減、最大3.5倍の高速推論を実現している。
論文 参考訳(メタデータ) (2024-02-12T12:48:02Z) - Break the Sequential Dependency of LLM Inference Using Lookahead
Decoding [27.87483106859749]
Lookahead decodingは、大規模言語モデル(LLM)のための正確な並列デコーディングアルゴリズムである。
実装により,MT-benchでは1.8倍,コード補完タスクでは4倍まで高速に自動回帰復号を行うことができる。
論文 参考訳(メタデータ) (2024-02-03T06:37:50Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation
with Large Language Models [12.708117108874083]
大きな言語モデル(LLM)は、ゼロショットで自然言語の意図を与えられたコードスニペットを生成する。
従来の研究は、タスク固有のプロンプト例でLLM生成プロセスを導く戦略として、インコンテキストラーニング(ICL)を探求していた。
本稿では,本論文の総合的研究について述べる。
自動コード生成シナリオにおけるLLMのためのPEFT技術。
論文 参考訳(メタデータ) (2023-08-21T04:31:06Z) - In-context Autoencoder for Context Compression in a Large Language Model [74.9807417009054]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z) - Efficient Long-Text Understanding with Short-Text Models [38.8375175429553]
SLEDは、バトルテストされた短文事前訓練されたLMを再利用し活用する、長いシーケンスを処理するための単純なアプローチである。
入力を重なり合うチャンクに分割し、それぞれを短文のLMエンコーダでエンコードし、事前訓練されたデコーダを使用してチャンク間で情報を融合する。
SLEDは、最大50倍の大きさで、専用で高価な事前訓練ステップを必要とする特殊なモデルと競合している。
論文 参考訳(メタデータ) (2022-08-01T11:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。