論文の概要: HoPE: Hyperbolic Rotary Positional Encoding for Stable Long-Range Dependency Modeling in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.05218v2
- Date: Mon, 08 Sep 2025 03:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.414333
- Title: HoPE: Hyperbolic Rotary Positional Encoding for Stable Long-Range Dependency Modeling in Large Language Models
- Title(参考訳): HoPE:大規模言語モデルにおける安定長値依存モデリングのための双曲回転位置符号化
- Authors: Chang Dai, Hongyu Shan, Mingyang Song, Di Liang,
- Abstract要約: 双曲型回転位置決め法を提案する。
トークン表現にローレンツ回転を実装するために双曲関数を利用する(HoPE)。
テストは、HoPEが既存の位置符号化手法を一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 19.3827288035483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Positional encoding mechanisms enable Transformers to model sequential structure and long-range dependencies in text. While absolute positional encodings struggle with extrapolation to longer sequences due to fixed positional representations, and relative approaches like Alibi exhibit performance degradation on extremely long contexts, the widely-used Rotary Positional Encoding (RoPE) introduces oscillatory attention patterns that hinder stable long-distance dependency modelling. We address these limitations through a geometric reformulation of positional encoding. Drawing inspiration from Lorentz transformations in hyperbolic geometry, we propose Hyperbolic Rotary Positional Encoding (HoPE), which leverages hyperbolic functions to implement Lorentz rotations on token representations. Theoretical analysis demonstrates that RoPE is a special case of our generalized formulation. HoPE fundamentally resolves RoPE's slation issues by enforcing monotonic decay of attention weights with increasing token distances. Extensive experimental results, including perplexity evaluations under several extended sequence benchmarks, show that HoPE consistently exceeds existing positional encoding methods. These findings underscore HoPE's enhanced capacity for representing and generalizing long-range dependencies. Data and code will be available.
- Abstract(参考訳): 位置符号化機構により、トランスフォーマーはテキストのシーケンシャル構造と長距離依存をモデル化できる。
絶対的な位置符号化は、固定された位置表現による長いシーケンスに対する外挿に苦労し、アリビのような相対的なアプローチは極端に長いコンテキストで性能劣化を示すが、RoPE(Rotary Positional Encoding)は、安定な長距離依存性モデリングを妨げる振動的注意パターンを導入している。
位置符号化の幾何学的再構成により,これらの制約に対処する。
双曲幾何学におけるローレンツ変換からインスピレーションを得て,双曲関数を利用してトークン表現にローレンツ回転を実装するHyperbolic Rotary Positional Encoding (HoPE)を提案する。
理論的解析により、RoPEは一般化された定式化の特別な場合であることが示された。
HoPEは、トークン距離の増大に伴う注目重みの単調な崩壊を強制することによって、RoPEのスレート問題を根本的に解決する。
複数の拡張シーケンスベンチマークによるパープレキシティ評価を含む大規模な実験結果から、HoPEが既存の位置符号化法を一貫して超越していることが示されている。
これらの知見は, 長距離依存を表現・一般化するHoPEの能力向上を裏付けるものである。
データとコードは利用可能だ。
関連論文リスト
- Context-aware Rotary Position Embedding [0.0]
RoPE(Rotary Positional Embeddings)は、相対的な位置符号化と計算効率との互換性から広く採用されている。
トークン埋め込みを前提とした頭部特異的な周波数パターンを動的に生成するRoPEの新たな一般化であるCARoPE(Context-Aware Rotary Positional Embedding)を提案する。
CaroPEは、RoPEや他の一般的な位置符号化ベースラインを一貫して上回り、より長いコンテキスト長でも非常に低いパープレキシティを実現している。
論文 参考訳(メタデータ) (2025-07-30T20:32:19Z) - HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models [4.105127179940934]
VLM(Vision-Language Models)は、マルチモーダルタスクにおいて大きな進歩を遂げた。
しかし、長文のシナリオではパフォーマンスが劣化することが多い。
本稿では,VLMの長文処理能力を改善するために,位置埋め込みのハイブリッドであるHoPEを提案する。
論文 参考訳(メタデータ) (2025-05-26T18:37:40Z) - PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。
家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-05-22T08:36:09Z) - Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position Encoding [64.29499221878746]
視覚言語モデル(VLM)は、汎用人工知能の進歩において顕著な能力を示している。
PyPEは、VLM内の視覚トークンの知覚を高めるために設計された新しいアプローチである。
本手法は,相互関連視覚要素と命令トークンとの相対的距離を減少させる。
論文 参考訳(メタデータ) (2025-01-19T07:00:46Z) - HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation [19.42279057349193]
位置符号化(PE)は、長く続く帰納的意見に基づいて、長期的な腐敗を示すように設計されている。
我々は、LLMがコンテキスト内情報の正確な検索を要求するタスクに適用されるようになったため、LLMの時代において長期の崩壊は時代遅れであると主張している。
論文 参考訳(メタデータ) (2024-10-28T17:01:52Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - KERPLE: Kernelized Relative Positional Embedding for Length
Extrapolation [72.71398034617607]
KERPLEは、位置差のカーネル化によって外挿のための相対的な位置埋め込みを一般化するフレームワークである。
CPDカーネルの多様性により、原則的に長さ外挿を可能にする様々な RPE を導出できる。
論文 参考訳(メタデータ) (2022-05-20T01:25:57Z) - RoFormer: Enhanced Transformer with Rotary Position Embedding [9.01819510933327]
位置情報を効果的に活用するためのRotary Position Embedding(RoPE)という新しい手法を提案する。
RoPEは絶対位置を回転行列でエンコードし、一方、自己アテンションの定式化に明示的な相対位置依存性を組み込む。
様々な長文分類ベンチマークデータセットを用いて、回転位置埋め込み(RoFormer)と呼ばれる拡張変換器の評価を行った。
論文 参考訳(メタデータ) (2021-04-20T09:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。