論文の概要: HoPE: Hyperbolic Rotary Positional Encoding for Stable Long-Range Dependency Modeling in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.05218v2
- Date: Mon, 08 Sep 2025 03:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.414333
- Title: HoPE: Hyperbolic Rotary Positional Encoding for Stable Long-Range Dependency Modeling in Large Language Models
- Title(参考訳): HoPE:大規模言語モデルにおける安定長値依存モデリングのための双曲回転位置符号化
- Authors: Chang Dai, Hongyu Shan, Mingyang Song, Di Liang,
- Abstract要約: 双曲型回転位置決め法を提案する。
トークン表現にローレンツ回転を実装するために双曲関数を利用する(HoPE)。
テストは、HoPEが既存の位置符号化手法を一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 19.3827288035483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Positional encoding mechanisms enable Transformers to model sequential structure and long-range dependencies in text. While absolute positional encodings struggle with extrapolation to longer sequences due to fixed positional representations, and relative approaches like Alibi exhibit performance degradation on extremely long contexts, the widely-used Rotary Positional Encoding (RoPE) introduces oscillatory attention patterns that hinder stable long-distance dependency modelling. We address these limitations through a geometric reformulation of positional encoding. Drawing inspiration from Lorentz transformations in hyperbolic geometry, we propose Hyperbolic Rotary Positional Encoding (HoPE), which leverages hyperbolic functions to implement Lorentz rotations on token representations. Theoretical analysis demonstrates that RoPE is a special case of our generalized formulation. HoPE fundamentally resolves RoPE's slation issues by enforcing monotonic decay of attention weights with increasing token distances. Extensive experimental results, including perplexity evaluations under several extended sequence benchmarks, show that HoPE consistently exceeds existing positional encoding methods. These findings underscore HoPE's enhanced capacity for representing and generalizing long-range dependencies. Data and code will be available.
- Abstract(参考訳): 位置符号化機構により、トランスフォーマーはテキストのシーケンシャル構造と長距離依存をモデル化できる。
絶対的な位置符号化は、固定された位置表現による長いシーケンスに対する外挿に苦労し、アリビのような相対的なアプローチは極端に長いコンテキストで性能劣化を示すが、RoPE(Rotary Positional Encoding)は、安定な長距離依存性モデリングを妨げる振動的注意パターンを導入している。
位置符号化の幾何学的再構成により,これらの制約に対処する。
双曲幾何学におけるローレンツ変換からインスピレーションを得て,双曲関数を利用してトークン表現にローレンツ回転を実装するHyperbolic Rotary Positional Encoding (HoPE)を提案する。
理論的解析により、RoPEは一般化された定式化の特別な場合であることが示された。
HoPEは、トークン距離の増大に伴う注目重みの単調な崩壊を強制することによって、RoPEのスレート問題を根本的に解決する。
複数の拡張シーケンスベンチマークによるパープレキシティ評価を含む大規模な実験結果から、HoPEが既存の位置符号化法を一貫して超越していることが示されている。
これらの知見は, 長距離依存を表現・一般化するHoPEの能力向上を裏付けるものである。
データとコードは利用可能だ。
関連論文リスト
- Rotary Positional Embeddings as Phase Modulation: Theoretical Bounds on the RoPE Base for Long-Context Transformers [0.5414847001704249]
ロータリー位置埋め込み (RoPE) は、トークンの位置を符号化するために大きな言語モデルで広く使われている。
目的コンテキスト長上の位置コヒーレンスを維持するために必要となる RoPE 基底パラメータの下位境界を導出する。
我々はこの解析を深部変圧器に拡張し, 層間における繰り返し回転変調が角方向のずれを生じさせることを示した。
下位境界と上部境界を合わせて、長文変換器の精度と深さに依存した実現可能性領域をゴールディロックゾーンと定義する。
論文 参考訳(メタデータ) (2026-02-11T15:50:07Z) - Beyond Real: Imaginary Extension of Rotary Position Embeddings for Long-Context LLMs [72.8830548005884]
RoPE(Rotary Position Embeddings)は、大規模言語モデルにおけるシーケンスオーダの符号化の標準となっている。
標準実装では、注目スコア計算に複雑な値のドット積の実際のコンポーネントのみを利用する。
この想像的要素を再組み込む拡張を提案する。
論文 参考訳(メタデータ) (2025-12-08T12:59:54Z) - Selective Rotary Position Embedding [84.22998043041198]
テキストインプットに依存した回転型埋め込み機構であるtextitSelective RoPE を導入する。
我々は,問合せキー対上で,これらの回転の隠れ形式を,ソフトマックスアテンションがすでに実行していることを示す。
入力依存回転が言語モデルの性能を向上させることを実証し, ゲートトランスフォーマーにtextitSelective RoPE を組み込むことにより, 本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-11-21T16:50:00Z) - DoPE: Denoising Rotary Position Embedding [60.779039511252584]
トランスフォーマーモデルにおける回転位置埋め込み(RoPE)は、長さを弱める固有の限界を持つ。
ノイズのある特徴写像として位置符号化を用いたアテンションマップを再解釈し、位置補間ページ(DoPE)を提案する。
DoPEは、トランカテッド行列エントロピーに基づくトレーニング不要な手法であり、特徴写像における外乱周波数帯域を検出する。
論文 参考訳(メタデータ) (2025-11-12T09:32:35Z) - EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting [50.794700596484894]
IntroPE(Entropy-Guided Dynamic Patch)は,条件付きエントロピーによる遷移点を動的に検出する新しい時間情報フレームワークである。
これは、パッチの計算上の利点を維持しながら、時間構造を保存する。
長期予測ベンチマークによる実験では、EntroPEは精度と効率の両方を改善している。
論文 参考訳(メタデータ) (2025-09-30T12:09:56Z) - Positional Encoding via Token-Aware Phase Attention [45.855203550592734]
本研究は,Rotary Positional Embedding (RoPE) が注意点の内在的距離依存バイアスを導入し,RoPEが長期コンテキストをモデル化する能力を制限していることを示す。
本稿では,学習可能な位相関数をアテンション機構に組み込んだ新しい位置符号化手法であるToken-Aware Phase Attention (TAPA)を紹介する。
論文 参考訳(メタデータ) (2025-09-16T03:53:32Z) - Context-aware Rotary Position Embedding [0.0]
RoPE(Rotary Positional Embeddings)は、相対的な位置符号化と計算効率との互換性から広く採用されている。
トークン埋め込みを前提とした頭部特異的な周波数パターンを動的に生成するRoPEの新たな一般化であるCARoPE(Context-Aware Rotary Positional Embedding)を提案する。
CaroPEは、RoPEや他の一般的な位置符号化ベースラインを一貫して上回り、より長いコンテキスト長でも非常に低いパープレキシティを実現している。
論文 参考訳(メタデータ) (2025-07-30T20:32:19Z) - HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models [4.105127179940934]
VLM(Vision-Language Models)は、マルチモーダルタスクにおいて大きな進歩を遂げた。
しかし、長文のシナリオではパフォーマンスが劣化することが多い。
本稿では,VLMの長文処理能力を改善するために,位置埋め込みのハイブリッドであるHoPEを提案する。
論文 参考訳(メタデータ) (2025-05-26T18:37:40Z) - PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。
家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-05-22T08:36:09Z) - Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position Encoding [64.29499221878746]
視覚言語モデル(VLM)は、汎用人工知能の進歩において顕著な能力を示している。
PyPEは、VLM内の視覚トークンの知覚を高めるために設計された新しいアプローチである。
本手法は,相互関連視覚要素と命令トークンとの相対的距離を減少させる。
論文 参考訳(メタデータ) (2025-01-19T07:00:46Z) - HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation [19.42279057349193]
位置符号化(PE)は、長く続く帰納的意見に基づいて、長期的な腐敗を示すように設計されている。
我々は、LLMがコンテキスト内情報の正確な検索を要求するタスクに適用されるようになったため、LLMの時代において長期の崩壊は時代遅れであると主張している。
論文 参考訳(メタデータ) (2024-10-28T17:01:52Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - KERPLE: Kernelized Relative Positional Embedding for Length
Extrapolation [72.71398034617607]
KERPLEは、位置差のカーネル化によって外挿のための相対的な位置埋め込みを一般化するフレームワークである。
CPDカーネルの多様性により、原則的に長さ外挿を可能にする様々な RPE を導出できる。
論文 参考訳(メタデータ) (2022-05-20T01:25:57Z) - RoFormer: Enhanced Transformer with Rotary Position Embedding [9.01819510933327]
位置情報を効果的に活用するためのRotary Position Embedding(RoPE)という新しい手法を提案する。
RoPEは絶対位置を回転行列でエンコードし、一方、自己アテンションの定式化に明示的な相対位置依存性を組み込む。
様々な長文分類ベンチマークデータセットを用いて、回転位置埋め込み(RoFormer)と呼ばれる拡張変換器の評価を行った。
論文 参考訳(メタデータ) (2021-04-20T09:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。