論文の概要: Extending Context Window of Large Language Models from a Distributional Perspective
- arxiv url: http://arxiv.org/abs/2410.01490v1
- Date: Thu, 3 Oct 2024 05:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:24:31.163634
- Title: Extending Context Window of Large Language Models from a Distributional Perspective
- Title(参考訳): 分布から見た大規模言語モデルのコンテキストウィンドウの拡張
- Authors: Yingsheng Wu. Yuxuan Gu, Xiaocheng Feng, Weihong Zhong, Dongliang Xu, Qing Yang, Hongtao Liu, Bing Qin,
- Abstract要約: 本稿では,回転角分布の観点から,コンテキストウィンドウ拡張タスクの最適化を提案する。
本稿では,回転角分布の乱れを最小限に抑える新しい拡張戦略を提案する。
提案手法は,既存の最先端手法よりも平均4.33%向上する。
- 参考スコア(独自算出の注目度): 28.88155767841592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling the rotary position embedding (RoPE) has become a common method for extending the context window of RoPE-based large language models (LLMs). However, existing scaling methods often rely on empirical approaches and lack a profound understanding of the internal distribution within RoPE, resulting in suboptimal performance in extending the context window length. In this paper, we propose to optimize the context window extending task from the view of rotary angle distribution. Specifically, we first estimate the distribution of the rotary angles within the model and analyze the extent to which length extension perturbs this distribution. Then, we present a novel extension strategy that minimizes the disturbance between rotary angle distributions to maintain consistency with the pre-training phase, enhancing the model's capability to generalize to longer sequences. Experimental results compared to the strong baseline methods demonstrate that our approach reduces by up to 72% of the distributional disturbance when extending LLaMA2's context window to 8k, and reduces by up to 32% when extending to 16k. On the LongBench-E benchmark, our method achieves an average improvement of up to 4.33% over existing state-of-the-art methods. Furthermore, Our method maintains the model's performance on the Hugging Face Open LLM benchmark after context window extension, with only an average performance fluctuation ranging from -0.12 to +0.22.
- Abstract(参考訳): 回転位置埋め込み(RoPE)のスケーリングは、RoPEベースの大規模言語モデル(LLM)のコンテキストウィンドウを拡張する一般的な方法となっている。
しかし、既存のスケーリング手法はしばしば経験的アプローチに依存しており、RoPEの内部分布の深い理解が欠如しているため、コンテキストウィンドウ長の拡張に最適な性能が得られた。
本稿では,回転角分布の観点から,コンテキストウィンドウ拡張タスクの最適化を提案する。
具体的には、まずモデル内の回転角の分布を推定し、この分布をどの長さ延長が摂動するかを解析する。
そこで本研究では,回転角分布間の乱れを最小限に抑え,事前学習フェーズとの整合性を保ち,より長い列に一般化するモデルの能力を高める新しい拡張戦略を提案する。
その結果,LLaMA2のコンテキストウィンドウを8kまで延ばすと,分布障害の最大72%,16kまで延ばすと最大32%減少することがわかった。
LongBench-Eベンチマークでは,既存の最先端手法よりも平均4.33%向上した。
さらに、コンテキストウィンドウ拡張後のHugging Face Open LLMベンチマークでは、平均的なパフォーマンス変動が-0.12から+0.22の範囲でしかなく、モデルの性能を維持できない。
関連論文リスト
- Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Exploring Context Window of Large Language Models via Decomposed Positional Vectors [107.19556541244654]
トランスフォーマーベースの大規模言語モデル(LLM)は通常、限られたコンテキストウィンドウを持つ。
本研究では,コンテキストウィンドウ内外の位置情報について検討する。
論文 参考訳(メタデータ) (2024-05-28T09:50:46Z) - LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - Scaling Laws of RoPE-based Extrapolation [103.33995311915864]
基本値と外挿性能の関係を記述するために,RoPEに基づく外挿法におけるtextbftextitScaling法則を提案する。
LLaMA2 7Bと13Bで最大100万の文脈長を16Kのトレーニング長で達成した。
論文 参考訳(メタデータ) (2023-10-08T15:50:36Z) - Learning to Reach Goals via Diffusion [16.344212996721346]
本稿では,拡散モデルに基づく目標条件強化学習の新たな視点について述べる。
次に、スコア関数に類似したこれらの偏差を逆転させるために、目標条件付きポリシーを学ぶ。
Merlinと呼ばれるこのアプローチは、別の値関数を学ぶことなく、任意の初期状態から特定の目標に到達することができます。
論文 参考訳(メタデータ) (2023-10-04T00:47:02Z) - Extending Context Window of Large Language Models via Positional
Interpolation [26.076599895589098]
我々は,RoPEをベースとした事前学習LLMのコンテキストウィンドウサイズを,最小限の微調整(1000ステップ以内)で最大32768まで拡張する位置補間法を提案する。
パスキー検索,言語モデリング,LLaMA 7B から 65B までの長い文書要約など,長いコンテキストを必要とするタスクに対して,強い経験的結果を示す。
論文 参考訳(メタデータ) (2023-06-27T16:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。