論文の概要: Rope to Nope and Back Again: A New Hybrid Attention Strategy
- arxiv url: http://arxiv.org/abs/2501.18795v1
- Date: Thu, 30 Jan 2025 23:05:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:02:20.233474
- Title: Rope to Nope and Back Again: A New Hybrid Attention Strategy
- Title(参考訳): Ropeが新たなハイブリッドアテンション戦略を発表
- Authors: Bowen Yang, Bharat Venkitesh, Dwarak Talupuru, Hangyu Lin, David Cairuz, Phil Blunsom, Acyr Locatelli,
- Abstract要約: 長文大言語モデル (LLM) はロータリー位置埋め込み (Rotary Position Embedding, RoPE) のような技術によって、目覚ましい進歩を遂げた。
本稿では,RoPE,No Positional Embedding (NoPE),Query-Key Normalization (QK-Norm)など,様々な注意機構の包括的解析を行う。
本稿では,従来の RoPE ベースのトランスフォーマーモデルよりも長いコンテキストタスクを超越し,より短いコンテキスト長を必要とするベンチマーク上での競合性能を実現する,ハイブリッドアテンション機構に基づくアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 18.13605820945755
- License:
- Abstract: Long-context large language models (LLMs) have achieved remarkable advancements, driven by techniques like Rotary Position Embedding (RoPE) (Su et al., 2023) and its extensions (Chen et al., 2023; Liu et al., 2024c; Peng et al., 2023). By adjusting RoPE parameters and incorporating training data with extended contexts, we can train performant models with considerably longer input sequences. However, existing RoPE-based methods exhibit performance limitations when applied to extended context lengths. This paper presents a comprehensive analysis of various attention mechanisms, including RoPE, No Positional Embedding (NoPE), and Query-Key Normalization (QK-Norm), identifying their strengths and shortcomings in long-context modeling. Our investigation identifies distinctive attention patterns in these methods and highlights their impact on long-context performance, providing valuable insights for architectural design. Building on these findings, we propose a novel architectural based on a hybrid attention mechanism that not only surpasses conventional RoPE-based transformer models in long context tasks but also achieves competitive performance on benchmarks requiring shorter context lengths.
- Abstract(参考訳): 長文大言語モデル (LLMs) は、ロータリー位置埋め込み (RoPE) (Su et al , 2023) やその拡張 (Chen et al , 2023; Liu et al , 2024c; Peng et al , 2023) などによって、顕著な進歩を遂げている。
RoPEパラメータを調整し、拡張コンテキストでトレーニングデータを組み込むことで、かなり長い入力シーケンスを持つパフォーマンスモデルを訓練することができる。
しかし、既存の RoPE ベースの手法は、拡張コンテキスト長に適用した場合のパフォーマンス制限を示す。
本稿では,RoPE,No Positional Embedding (NoPE),Query-Key Normalization (QK-Norm) など,様々な注意機構を包括的に分析し,長文モデリングにおけるその長所と短所を同定する。
本研究は,これらの手法における特徴的注意パターンを同定し,長期コンテキスト性能への影響を強調し,建築設計に価値ある洞察を与えるものである。
これらの知見に基づいて,従来のRoPEトランスフォーマーモデルに勝るだけでなく,より短いコンテキスト長を必要とするベンチマーク上での競合性能を実現する,ハイブリッドアテンション機構に基づくアーキテクチャを提案する。
関連論文リスト
- Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective [35.947737679664016]
本稿では,RoPE拡張の注意点から,直接的かつ詳細な理解を提供する。
RoPE拡張の長い継続事前トレーニング長を使用することで、注意の不確実性を低減し、外挿を著しく向上させることができる。
論文 参考訳(メタデータ) (2024-06-19T07:23:33Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Base of RoPE Bounds Context Length [37.11078116104313]
回転位置埋め込み (RoPE) は、位置情報を回転行列で符号化する技法である。
本稿では, LLM が OOD 理論に基づく表層長文能力を得る可能性があることを明らかにする。
我々の研究は、文脈長とRoPEベースとの関係を理論的にも経験的にも明らかにし、将来の長期の文脈トレーニングに光を当てるかもしれない。
論文 参考訳(メタデータ) (2024-05-23T14:03:31Z) - LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - Resonance RoPE: Improving Context Length Generalization of Large Language Models [37.749813693281254]
本稿では,ロータリー位置埋め込み(RoPE)を備えた大規模言語モデル(LLM)におけるTSTLシナリオの課題について述べる。
本稿では,TSTLシナリオの一般化ギャップを狭めるための新しい手法であるResonance RoPEを紹介する。
本稿では,TSTLシナリオの微粒化挙動解析に特化して設計された,新しい合成ベンチマークPosGenを提案する。
論文 参考訳(メタデータ) (2024-02-29T19:02:03Z) - Scaling Laws of RoPE-based Extrapolation [103.33995311915864]
基本値と外挿性能の関係を記述するために,RoPEに基づく外挿法におけるtextbftextitScaling法則を提案する。
LLaMA2 7Bと13Bで最大100万の文脈長を16Kのトレーニング長で達成した。
論文 参考訳(メタデータ) (2023-10-08T15:50:36Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - Long Short-Term Transformer for Online Action Detection [96.23884916995978]
Long Short-term TRansformer (LSTR) はオンライン行動検出のための新しい時間的モデリングアルゴリズムである。
以前の研究と比較すると、LSTRはアルゴリズム設計の少ない長編動画を効果的かつ効率的にモデル化する方法を提供する。
論文 参考訳(メタデータ) (2021-07-07T17:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。