Fugu-MT 論文翻訳(概要): LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models

論文の概要: LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models

arxiv url: http://arxiv.org/abs/2308.16137v2
Date: Tue, 5 Sep 2023 15:09:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 02:15:03.867979
Title: LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models
Title（参考訳）: LM-Infinite:大規模言語モデルのための簡易オンザフライ長一般化
Authors: Chi Han, Qifan Wang, Wenhan Xiong, Yu Chen, Heng Ji, Sinong Wang
Abstract要約: 大規模言語モデル(LLM)は、長いコンテキストの後に下流のタスクを実行するだけでなく、流動的で一貫性のあるテキストを生成するのに苦労することが多い。そこで本研究では,オンザフライ長一般化のための単純で効果的な解LM-Infiniteを提案する。 Lambda$字型のアテンションマスクと、パラメータの更新や学習を必要とせず、距離制限のみを含む。 ArXivとOpenWebText2データセットで32kトークンまで、一貫したテキスト生成のレイテンシと品質を示し、2.72倍のデコードスピードアップを実現している。
参考スコア（独自算出の注目度）: 78.60227287531683
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, there have been remarkable advancements in the performance of Transformer-based Large Language Models (LLMs) across various domains. As these LLMs are deployed for increasingly complex tasks, they often face the need to conduct longer reasoning processes or understand larger contexts. In these situations, the length generalization failure of LLMs on long sequences becomes more prominent. Most pre-training schemes truncate training sequences to a fixed length. LLMs often struggle to generate fluent and coherent texts, let alone carry out downstream tasks, after longer contexts, even with relative positional encoding designed to cope with this problem. Common solutions such as finetuning on longer corpora often involve daunting hardware and time costs and require careful training process design. To more efficiently leverage the generation capacity of existing LLMs, we theoretically and empirically investigate the main out-of-distribution (OOD) factors contributing to this problem. Inspired by this diagnosis, we propose a simple yet effective solution for on-the-fly length generalization, LM-Infinite. It involves only a $\Lambda$-shaped attention mask (to avoid excessive attended tokens) and a distance limit (to avoid unseen distances) while requiring no parameter updates or learning. We find it applicable to a variety of LLMs using relative-position encoding methods. LM-Infinite is computationally efficient with $O(n)$ time and space, and demonstrates consistent text generation fluency and quality to as long as 32k tokens on ArXiv and OpenWebText2 datasets, with 2.72x decoding speedup. On downstream tasks such as passkey retrieval, it continues to work on inputs much longer than training lengths where vanilla models fail immediately.
Abstract（参考訳）: 近年,トランスフォーマーを用いた大規模言語モデル (LLM) の性能は,様々な領域で顕著に向上している。これらのllmはますます複雑なタスクにデプロイされるため、より長い推論プロセスやより大きなコンテキストを理解する必要性に直面することが多い。これらの状況下では、長い列上のLLMの長さ一般化失敗がより顕著になる。ほとんどの事前訓練は、トレーニングシーケンスを一定長さに切り詰める。 LLMは、この問題に対処するために設計された相対的な位置エンコーディングでさえも、より長いコンテキストの後に下流のタスクを実行することは言うまでもなく、流動的で一貫性のあるテキストを生成するのに苦労する。長いコーパスの微調整のような一般的な解決策は、しばしばハードウェアと時間のコストを悩ませ、注意深くトレーニングプロセス設計を必要とする。既存のLCMの生成能力をより効率的に活用するため,本問題に寄与する主要なアウト・オブ・ディストリビューション(OOD)要因を理論的・実験的に検討した。この診断にインスパイアされた本研究では,オンザフライ長一般化のための単純かつ効果的な解であるLM-Infiniteを提案する。これはパラメータ更新や学習を必要とせず、$\lambda$型のアテンションマスク(過剰な出席トークンを避けるため)と距離制限(見えない距離を避けるため)のみを含む。相対配置符号化法を用いて,様々なLLMに適用できることを示す。 LM-Infiniteは、$O(n)$の時間と空間で計算的に効率的であり、ArXivとOpenWebText2データセットで32kトークンの一貫性のあるテキスト生成率と品質を示し、2.72倍のデコード速度を持つ。パスキー検索などの下流タスクでは、バニラモデルが即座に失敗するトレーニング長よりもずっと長い入力が処理される。

関連論文リスト

Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
Infinite Retrieval: Attention Enhanced LLMs in Long-Context Processing [19.577278316436807]
大きな言語モデル(LLM)はコンテキストウィンドウサイズによって制限される。そこで本研究では,LLM自体の注意情報を利用して正確な検索を行う手法を提案する。 InfiniRetriは0.5Bパラメータモデルを用いて、1Mトークン上でのNeedle-In-a-Haystack(NIH)テストで100%精度を達成する。
論文参考訳（メタデータ） (2025-02-18T15:45:36Z)
InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文参考訳（メタデータ） (2025-02-13T02:52:01Z)
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。 NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文参考訳（メタデータ） (2024-05-29T17:55:03Z)
SirLLM: Streaming Infinite Retentive LLM [74.40196814292426]
大きな言語モデル(LLM)は任意の長さの入力を処理し、メモリの程度を維持する。近年の取り組みでは、過度に長いテキスト入力の圧力を軽減するためにストリーミング入力が採用されている。本稿では,SirLLM(Streaming Infinite Retentive LLM)を提案する。
論文参考訳（メタデータ） (2024-05-21T06:37:03Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [15.723047976314751]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文参考訳（メタデータ） (2024-02-26T18:59:28Z)
InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。 InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-02-07T06:50:42Z)
Break the Sequential Dependency of LLM Inference Using Lookahead Decoding [27.87483106859749]
Lookahead decodingは、大規模言語モデル(LLM)のための正確な並列デコーディングアルゴリズムである。実装により,MT-benchでは1.8倍,コード補完タスクでは4倍まで高速に自動回帰復号を行うことができる。
論文参考訳（メタデータ） (2024-02-03T06:37:50Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Efficient Long-Text Understanding with Short-Text Models [38.8375175429553]
SLEDは、バトルテストされた短文事前訓練されたLMを再利用し活用する、長いシーケンスを処理するための単純なアプローチである。入力を重なり合うチャンクに分割し、それぞれを短文のLMエンコーダでエンコードし、事前訓練されたデコーダを使用してチャンク間で情報を融合する。 SLEDは、最大50倍の大きさで、専用で高価な事前訓練ステップを必要とする特殊なモデルと競合している。
論文参考訳（メタデータ） (2022-08-01T11:14:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。