Fugu-MT 論文翻訳(概要): Scaling Laws of RoPE-based Extrapolation

論文の概要: Scaling Laws of RoPE-based Extrapolation

arxiv url: http://arxiv.org/abs/2310.05209v1
Date: Sun, 8 Oct 2023 15:50:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 11:24:31.326273
Title: Scaling Laws of RoPE-based Extrapolation
Title（参考訳）: RoPEを用いた外挿法のスケーリング法則
Authors: Xiaoran Liu, Hang Yan, Shuo Zhang, Chenxin An, Xipeng Qiu, Dahua Lin
Abstract要約: 基本値と外挿性能の関係を記述するために,RoPEに基づく外挿法におけるtextbftextitScaling法則を提案する。 LLaMA2 7Bと13Bで最大100万の文脈長を16Kのトレーニング長で達成した。
参考スコア（独自算出の注目度）: 103.33995311915864
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The extrapolation capability of Large Language Models (LLMs) based on Rotary Position Embedding is currently a topic of considerable interest. The mainstream approach to addressing extrapolation with LLMs involves modifying RoPE by replacing 10000, the rotary base of $\theta_n={10000}^{-2n/d}$ in the original RoPE, with a larger value and providing longer fine-tuning text. In this work, we first observe that fine-tuning a RoPE-based LLM with either a smaller or larger base in pre-training context length could significantly enhance its extrapolation performance. After that, we propose \textbf{\textit{Scaling Laws of RoPE-based Extrapolation}}, a unified framework from the periodic perspective, to describe the relationship between the extrapolation performance and base value as well as tuning context length. In this process, we also explain the origin of the RoPE-based extrapolation issue by \textbf{\textit{critical dimension for extrapolation}}. Besides these observations and analyses, we achieve extrapolation up to 1 million context length within only 16K training length on LLaMA2 7B and 13B.
Abstract（参考訳）: ロータリー位置埋め込みに基づくLLM(Large Language Models)の補間機能は、現在かなりの関心を集めているトピックである。 LLMによる外挿に対処する主流のアプローチは、オリジナルの RoPE において $\theta_n={10000}^{-2n/d} の回転ベースである 10000 を置き換えることで RoPE を変更することであり、より大きな値とより長い微調整テキストを提供する。本研究では,RoPEをベースとしたLLMをトレーニング前のコンテキスト長の小さいあるいは大きいベースで微調整することで,外挿性能が著しく向上することを示した。その後、周期的な視点から、外挿性能とベース値の関係を記述し、文脈長のチューニングを行うための統一的なフレームワークである、RoPEベースの外挿法則である「textbf{\textit{Scaling Laws of RoPE」を提案する。この過程では、外挿法における RoPE に基づく外挿問題の起源を \textbf{\textit{ critical dimension for extrapolation}} で説明する。これらの観察と分析に加えて,LLaMA2 7Bと13Bの16Kトレーニング長で最大100万の文脈長の補間を行う。

関連論文リスト

Effective Length Extrapolation via Dimension-Wise Positional Embeddings Manipulation [60.22622442950905]
大型言語モデル(LLM)は、入力トークンの数がトレーニング済みの長さを超えると、コヒーレントなコンテキストを処理し、生成するのに苦労することが多い。長文拡張の最近の進歩は、LLMのコンテキストウィンドウを大きく拡張した。 LLMのコンテキストウィンドウを外挿するためのDPE(Dmension-Wise Positional Embeddings Manipulation)を提案する。
論文参考訳（メタデータ） (2025-04-26T08:46:10Z)
LongRoPE2: Near-Lossless LLM Context Window Scaling [46.936900701411965]
LongRoPE2は、トレーニング済みの大規模言語モデル(LLM)の効果的なコンテキストウィンドウをターゲット長に拡張する、新しいアプローチである。提案手法は,(1) 従来の手法で観測された分布外問題に対して,RoPE次元のトレーニングが不十分であるという仮説,(2) 不十分なトレーニング問題に対処するために,"needle-driven" パープレクシリティによって導かれる進化的探索を採用する効果的なRoPE再スケーリングアルゴリズム,(3) 細管モデル重みを長文配列に適用するための混合コンテキストウィンドウトレーニングアプローチ,の3つによって達成される。
論文参考訳（メタデータ） (2025-02-27T13:41:07Z)
Rope to Nope and Back Again: A New Hybrid Attention Strategy [18.13605820945755]
長文大言語モデル (LLM) はロータリー位置埋め込み (Rotary Position Embedding, RoPE) のような技術によって、目覚ましい進歩を遂げた。本稿では,RoPE,No Positional Embedding (NoPE),Query-Key Normalization (QK-Norm)など,様々な注意機構の包括的解析を行う。本稿では,従来の RoPE ベースのトランスフォーマーモデルよりも長いコンテキストタスクを超越し,より短いコンテキスト長を必要とするベンチマーク上での競合性能を実現する,ハイブリッドアテンション機構に基づくアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-01-30T23:05:57Z)
When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training [51.23520027773028]
コンテキストウィンドウサイズの拡張により、大きな言語モデルでは、より長いシーケンスを処理し、より複雑なタスクを処理できる。我々は,RoPEをBFloat16フォーマットで使用すると,数値的な問題が発生し,目的とする相対的位置エンコーディングから逸脱してしまうことを観察した。我々は,BFloat16による数値問題を軽減するプラグイン・アンド・プレイアテンション法であるAnchorAttentionを開発した。
論文参考訳（メタデータ） (2024-11-20T17:22:31Z)
What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文参考訳（メタデータ） (2024-10-31T09:39:28Z)
Round and Round We Go! What makes Rotary Positional Encodings useful? [15.543752938828831]
メカニカルレベルでの RoPE の使用方法を理解するため, トレーニングされた Gemma 7B モデルの内部構造について検討した。 Gemma は,RoPE を用いて高周波数を利用してロバストな「位置的」アテンションパターンを構築することを学ぶ。強調された問題を修正し、性能を向上するRoPEの修正を提案する。
論文参考訳（メタデータ） (2024-10-08T17:07:01Z)
Extending Context Window of Large Language Models from a Distributional Perspective [29.313701168816507]
本稿では,回転角分布の観点から,コンテキストウィンドウ拡張タスクの最適化を提案する。本稿では,回転角分布の乱れを最小限に抑える新しい拡張戦略を提案する。提案手法は,既存の最先端手法よりも平均4.33%向上する。
論文参考訳（メタデータ） (2024-10-02T12:40:11Z)
Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective [35.947737679664016]
本稿では,RoPE拡張の注意点から,直接的かつ詳細な理解を提供する。 RoPE拡張の長い継続事前トレーニング長を使用することで、注意の不確実性を低減し、外挿を著しく向上させることができる。
論文参考訳（メタデータ） (2024-06-19T07:23:33Z)
Base of RoPE Bounds Context Length [37.11078116104313]
回転位置埋め込み (RoPE) は、位置情報を回転行列で符号化する技法である。本稿では, LLM が OOD 理論に基づく表層長文能力を得る可能性があることを明らかにする。我々の研究は、文脈長とRoPEベースとの関係を理論的にも経験的にも明らかにし、将来の長期の文脈トレーニングに光を当てるかもしれない。
論文参考訳（メタデータ） (2024-05-23T14:03:31Z)
Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文参考訳（メタデータ） (2024-05-07T01:56:22Z)
Resonance RoPE: Improving Context Length Generalization of Large Language Models [37.749813693281254]
本稿では,ロータリー位置埋め込み(RoPE)を備えた大規模言語モデル(LLM)におけるTSTLシナリオの課題について述べる。本稿では,TSTLシナリオの一般化ギャップを狭めるための新しい手法であるResonance RoPEを紹介する。本稿では,TSTLシナリオの微粒化挙動解析に特化して設計された,新しい合成ベンチマークPosGenを提案する。
論文参考訳（メタデータ） (2024-02-29T19:02:03Z)
CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。 CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文参考訳（メタデータ） (2023-10-25T08:13:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。