論文の概要: LongRoPE2: Near-Lossless LLM Context Window Scaling
- arxiv url: http://arxiv.org/abs/2502.20082v1
- Date: Thu, 27 Feb 2025 13:41:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:11.073297
- Title: LongRoPE2: Near-Lossless LLM Context Window Scaling
- Title(参考訳): LongRoPE2: LLMコンテキストウィンドウスケーリング
- Authors: Ning Shang, Li Lyna Zhang, Siyuan Wang, Gaokai Zhang, Gilsinia Lopez, Fan Yang, Weizhu Chen, Mao Yang,
- Abstract要約: LongRoPE2は、トレーニング済みの大規模言語モデル(LLM)の効果的なコンテキストウィンドウをターゲット長に拡張する、新しいアプローチである。
提案手法は,(1) 従来の手法で観測された分布外問題に対して,RoPE次元のトレーニングが不十分であるという仮説,(2) 不十分なトレーニング問題に対処するために,"needle-driven" パープレクシリティによって導かれる進化的探索を採用する効果的なRoPE再スケーリングアルゴリズム,(3) 細管モデル重みを長文配列に適用するための混合コンテキストウィンドウトレーニングアプローチ,の3つによって達成される。
- 参考スコア(独自算出の注目度): 46.936900701411965
- License:
- Abstract: LongRoPE2 is a novel approach that extends the effective context window of pre-trained large language models (LLMs) to the target length, while preserving the performance on the original shorter context window. This is achieved by three contributions: (1) a hypothesis that insufficient training in higher RoPE dimensions contributes to the persistent out-of-distribution (OOD) issues observed in existing methods; (2) an effective RoPE rescaling algorithm that adopts evolutionary search guided by "needle-driven" perplexity to address the insufficient training problem; (3) a mixed context window training approach that fine-tunes model weights to adopt rescaled RoPE for long-context sequences while preserving the short-context performance with the original RoPE. Extensive experiments on LLaMA3-8B and Phi3-mini-3.8B across various benchmarks validate the hypothesis and demonstrate the effectiveness of LongRoPE2. Remarkably, LongRoPE2 extends LLaMA3-8B to achieve a 128K effective context length while retaining over 98.5% of short-context performance, using only 10B tokens -- 80x fewer than Meta's approach, which fails to reach the target effective context length. Code will be available at https://github.com/microsoft/LongRoPE.
- Abstract(参考訳): LongRoPE2は、トレーニング済みの大規模言語モデル(LLM)の効果的なコンテキストウィンドウをターゲット長まで拡張する新しいアプローチである。
提案手法は,(1)既存手法で観測された持続的アウト・オブ・ディストリビューション(OOD)問題に,高度のRoPE次元でのトレーニング不足が寄与する仮説,(2)不十分なトレーニング問題に対処するために"ニードル駆動"パープレキシティによって導かれる進化的探索を採用する効果的なRoPE再スケーリングアルゴリズム,(3)低音モデル重みを長文シーケンスに適用するための混合コンテキストウィンドウトレーニングアプローチ,の3つによって実現された。
LLaMA3-8B と Phi3-mini-3.8B の様々なベンチマークによる大規模な実験は、この仮説を検証し、LongRoPE2 の有効性を実証した。
注目すべきなのは、LongRoPE2はLLaMA3-8Bを拡張して、128Kの有効コンテキスト長を実現し、98.5%以上の短コンテキスト性能を維持し、Metaのアプローチの80倍の10Bトークンを使用する。
コードはhttps://github.com/microsoft/LongRoPEで入手できる。
関連論文リスト
- Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - Extending Context Window of Large Language Models from a Distributional Perspective [29.313701168816507]
本稿では,回転角分布の観点から,コンテキストウィンドウ拡張タスクの最適化を提案する。
本稿では,回転角分布の乱れを最小限に抑える新しい拡張戦略を提案する。
提案手法は,既存の最先端手法よりも平均4.33%向上する。
論文 参考訳(メタデータ) (2024-10-02T12:40:11Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - Base of RoPE Bounds Context Length [37.11078116104313]
回転位置埋め込み (RoPE) は、位置情報を回転行列で符号化する技法である。
本稿では, LLM が OOD 理論に基づく表層長文能力を得る可能性があることを明らかにする。
我々の研究は、文脈長とRoPEベースとの関係を理論的にも経験的にも明らかにし、将来の長期の文脈トレーニングに光を当てるかもしれない。
論文 参考訳(メタデータ) (2024-05-23T14:03:31Z) - LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens [7.833740464264734]
現在の拡張コンテキストウィンドウは約128kトークンに制限されている。
LongRoPEは、事前訓練されたLLMのコンテキストウィンドウを2048kトークンに拡張する。
論文 参考訳(メタデータ) (2024-02-21T12:30:33Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z) - PoSE: Efficient Context Window Extension of LLMs via Positional
Skip-wise Training [91.99700930388998]
固定されたコンテキストウィンドウを用いて長い入力をシミュレートする位置スキップ-wisEトレーニングを提案する。
PoSEはフル長の微調整に比べてメモリと時間オーバーヘッドを大幅に削減する。
2kのトレーニングコンテキストウィンドウを使用して,LLaMAモデルを128kトークンに拡張した。
論文 参考訳(メタデータ) (2023-09-19T08:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。