Fugu-MT 論文翻訳(概要): When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training

論文の概要: When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training

arxiv url: http://arxiv.org/abs/2411.13476v2
Date: Tue, 26 Nov 2024 09:46:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.537745
Title: When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training
Title（参考訳）: BFloat16がLong-ContextトレーニングでRoPEを分解
Authors: Haonan Wang, Qian Liu, Chao Du, Tongyao Zhu, Cunxiao Du, Kenji Kawaguchi, Tianyu Pang,
Abstract要約: コンテキストウィンドウサイズの拡張により、大きな言語モデルでは、より長いシーケンスを処理し、より複雑なタスクを処理できる。我々は,RoPEをBFloat16フォーマットで使用すると,数値的な問題が発生し,目的とする相対的位置エンコーディングから逸脱してしまうことを観察した。我々は,BFloat16による数値問題を軽減するプラグイン・アンド・プレイアテンション法であるAnchorAttentionを開発した。
参考スコア（独自算出の注目度）: 51.23520027773028
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Extending context window sizes allows large language models (LLMs) to process longer sequences and handle more complex tasks. Rotary Positional Embedding (RoPE) has become the de facto standard due to its relative positional encoding properties that benefit long-context training. However, we observe that using RoPE with BFloat16 format results in numerical issues, causing it to deviate from its intended relative positional encoding, especially in long-context scenarios. This issue arises from BFloat16's limited precision and accumulates as context length increases, with the first token contributing significantly to this problem. To address this, we develop AnchorAttention, a plug-and-play attention method that alleviates numerical issues caused by BFloat16, improves long-context capabilities, and speeds up training. AnchorAttention reduces unnecessary attention computations, maintains semantic coherence, and boosts computational efficiency by treating the first token as a shared anchor with a consistent position ID, making it visible to all documents within the training context. Experiments on three types of LLMs demonstrate that AnchorAttention significantly improves long-context performance and reduces training time by over 50\% compared to standard full attention mechanisms, while preserving the original LLM's capabilities on general tasks. Our code is available at https://github.com/haonan3/AnchorContext.
Abstract（参考訳）: コンテキストウィンドウのサイズを拡張することで、より大きな言語モデル(LLM)がより長いシーケンスを処理し、より複雑なタスクを処理できるようになる。 RoPE(Rotary Positional Embedding)がデファクトスタンダードになったのは、その相対的な位置符号化特性が長文学習に役立っているためである。しかし,RoPEをBFloat16フォーマットで使用すると数値的な問題が発生し,特に長文のシナリオにおいて,目的の相対的位置エンコーディングから逸脱する。この問題は、BFloat16の限られた精度から発生し、コンテキスト長が増加するにつれて蓄積され、最初のトークンがこの問題に大きく貢献する。そこで我々は,BFloat16による数値問題を軽減し,長文機能を改善し,トレーニングを高速化するAnchorAttentionを開発した。 AnchorAttentionは不要な注意計算を減らし、セマンティックコヒーレンスを維持し、第1のトークンを一貫した位置IDで共有アンカーとして扱うことにより、トレーニングコンテキスト内のすべてのドキュメントで見えるようにすることで、計算効率を向上させる。 3種類のLLM実験により、アンコールアテンションは、通常のフルアテンション機構と比較して、長時間のコンテキスト性能を著しく改善し、トレーニング時間を50%以上短縮する一方で、元のLLMの機能を一般的なタスクで維持することを示した。私たちのコードはhttps://github.com/haonan3/AnchorContextで利用可能です。

関連論文リスト

LaMPE: Length-aware Multi-grained Positional Encoding for Adaptive Long-context Scaling Without Training [45.74983991122073]
大規模言語モデル(LLM)は、入力が事前学習されたコンテキストウインドウを超えると、大幅な性能低下を経験する。近年の研究では、OOD位置を固定写像戦略で分配範囲に再配置することでこの問題を緩和している。本研究では,Longth-aware Multi-grained Positional Scaling (LaMPE)を提案する。
論文参考訳（メタデータ） (2025-08-04T11:22:13Z)
Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文参考訳（メタデータ） (2025-06-13T15:35:54Z)
LongSpec: Long-Context Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
投機的復号化は、大規模言語モデルにおける自己回帰復号化の高推論遅延を軽減するための有望な手法となっている。その約束にもかかわらず、LLMにおける投機的復号化の効果的な適用は、まだ3つの重要な課題に直面している。これらの課題に対処することで、長期コンテキスト設定における投機的復号化の性能を向上させる。
論文参考訳（メタデータ） (2025-02-24T18:53:31Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文参考訳（メタデータ） (2024-10-31T09:39:28Z)
Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文参考訳（メタデータ） (2024-10-24T13:51:50Z)
FocusLLM: Scaling LLM's Context by Parallel Decoding [16.642675785000176]
FocusLLM はデコーダのみの LLM のコンテキスト長を拡張するように設計されたフレームワークである。 FocusLLMは、モデルを元のコンテキスト長に基づいてチャンクに分割することで、長いテキスト入力を処理する。ローカルコンテキストを各チャンクに付加し、新しい並列復号機構に基づいて各チャンクから必須情報を抽出するプロンプトとする。
論文参考訳（メタデータ） (2024-08-21T16:11:59Z)
Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文参考訳（メタデータ） (2024-05-07T01:56:22Z)
Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文参考訳（メタデータ） (2024-01-13T07:57:01Z)
PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise Training [91.99700930388998]
固定されたコンテキストウィンドウを用いて長い入力をシミュレートする位置スキップ-wisEトレーニングを提案する。 PoSEはフル長の微調整に比べてメモリと時間オーバーヘッドを大幅に削減する。 2kのトレーニングコンテキストウィンドウを使用して,LLaMAモデルを128kトークンに拡張した。
論文参考訳（メタデータ） (2023-09-19T08:03:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。