論文の概要: Scaling Laws of RoPE-based Extrapolation
- arxiv url: http://arxiv.org/abs/2310.05209v1
- Date: Sun, 8 Oct 2023 15:50:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 11:24:31.326273
- Title: Scaling Laws of RoPE-based Extrapolation
- Title(参考訳): RoPEを用いた外挿法のスケーリング法則
- Authors: Xiaoran Liu, Hang Yan, Shuo Zhang, Chenxin An, Xipeng Qiu, Dahua Lin
- Abstract要約: 基本値と外挿性能の関係を記述するために,RoPEに基づく外挿法におけるtextbftextitScaling法則を提案する。
LLaMA2 7Bと13Bで最大100万の文脈長を16Kのトレーニング長で達成した。
- 参考スコア(独自算出の注目度): 103.33995311915864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The extrapolation capability of Large Language Models (LLMs) based on Rotary
Position Embedding is currently a topic of considerable interest. The
mainstream approach to addressing extrapolation with LLMs involves modifying
RoPE by replacing 10000, the rotary base of $\theta_n={10000}^{-2n/d}$ in the
original RoPE, with a larger value and providing longer fine-tuning text. In
this work, we first observe that fine-tuning a RoPE-based LLM with either a
smaller or larger base in pre-training context length could significantly
enhance its extrapolation performance. After that, we propose
\textbf{\textit{Scaling Laws of RoPE-based Extrapolation}}, a unified framework
from the periodic perspective, to describe the relationship between the
extrapolation performance and base value as well as tuning context length. In
this process, we also explain the origin of the RoPE-based extrapolation issue
by \textbf{\textit{critical dimension for extrapolation}}. Besides these
observations and analyses, we achieve extrapolation up to 1 million context
length within only 16K training length on LLaMA2 7B and 13B.
- Abstract(参考訳): ロータリー位置埋め込みに基づくLLM(Large Language Models)の補間機能は、現在かなりの関心を集めているトピックである。
LLMによる外挿に対処する主流のアプローチは、オリジナルの RoPE において $\theta_n={10000}^{-2n/d} の回転ベースである 10000 を置き換えることで RoPE を変更することであり、より大きな値とより長い微調整テキストを提供する。
本研究では,RoPEをベースとしたLLMをトレーニング前のコンテキスト長の小さいあるいは大きいベースで微調整することで,外挿性能が著しく向上することを示した。
その後、周期的な視点から、外挿性能とベース値の関係を記述し、文脈長のチューニングを行うための統一的なフレームワークである、RoPEベースの外挿法則である「textbf{\textit{Scaling Laws of RoPE」を提案する。
この過程では、外挿法における RoPE に基づく外挿問題の起源を \textbf{\textit{ critical dimension for extrapolation}} で説明する。
これらの観察と分析に加えて,LLaMA2 7Bと13Bの16Kトレーニング長で最大100万の文脈長の補間を行う。
関連論文リスト
- When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training [51.23520027773028]
コンテキストウィンドウサイズの拡張により、大きな言語モデルでは、より長いシーケンスを処理し、より複雑なタスクを処理できる。
我々は,RoPEをBFloat16フォーマットで使用すると,数値的な問題が発生し,目的とする相対的位置エンコーディングから逸脱してしまうことを観察した。
我々は,BFloat16による数値問題を軽減するプラグイン・アンド・プレイアテンション法であるAnchorAttentionを開発した。
論文 参考訳(メタデータ) (2024-11-20T17:22:31Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - Round and Round We Go! What makes Rotary Positional Encodings useful? [15.543752938828831]
メカニカルレベルでの RoPE の使用方法を理解するため, トレーニングされた Gemma 7B モデルの内部構造について検討した。
Gemma は,RoPE を用いて高周波数を利用してロバストな「位置的」アテンションパターンを構築することを学ぶ。
強調された問題を修正し、性能を向上するRoPEの修正を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:07:01Z) - Extending Context Window of Large Language Models from a Distributional Perspective [29.313701168816507]
本稿では,回転角分布の観点から,コンテキストウィンドウ拡張タスクの最適化を提案する。
本稿では,回転角分布の乱れを最小限に抑える新しい拡張戦略を提案する。
提案手法は,既存の最先端手法よりも平均4.33%向上する。
論文 参考訳(メタデータ) (2024-10-02T12:40:11Z) - Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective [35.947737679664016]
本稿では,RoPE拡張の注意点から,直接的かつ詳細な理解を提供する。
RoPE拡張の長い継続事前トレーニング長を使用することで、注意の不確実性を低減し、外挿を著しく向上させることができる。
論文 参考訳(メタデータ) (2024-06-19T07:23:33Z) - Base of RoPE Bounds Context Length [37.11078116104313]
回転位置埋め込み (RoPE) は、位置情報を回転行列で符号化する技法である。
本稿では, LLM が OOD 理論に基づく表層長文能力を得る可能性があることを明らかにする。
我々の研究は、文脈長とRoPEベースとの関係を理論的にも経験的にも明らかにし、将来の長期の文脈トレーニングに光を当てるかもしれない。
論文 参考訳(メタデータ) (2024-05-23T14:03:31Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - Resonance RoPE: Improving Context Length Generalization of Large Language Models [37.749813693281254]
本稿では,ロータリー位置埋め込み(RoPE)を備えた大規模言語モデル(LLM)におけるTSTLシナリオの課題について述べる。
本稿では,TSTLシナリオの一般化ギャップを狭めるための新しい手法であるResonance RoPEを紹介する。
本稿では,TSTLシナリオの微粒化挙動解析に特化して設計された,新しい合成ベンチマークPosGenを提案する。
論文 参考訳(メタデータ) (2024-02-29T19:02:03Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。