論文の概要: Jordan-RoPE: Non-Semisimple Relative Positional Encoding via Complex Jordan Blocks
- arxiv url: http://arxiv.org/abs/2605.04217v1
- Date: Tue, 05 May 2026 18:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.496745
- Title: Jordan-RoPE: Non-Semisimple Relative Positional Encoding via Complex Jordan Blocks
- Title(参考訳): Jordan-RoPE: 複素ジョルダンブロックによる非半単純相対的位置符号化
- Authors: Yaobo Zhang,
- Abstract要約: 相対的な位置エンコーディングは、クエリキーラグのどの関数がプリミティブアテンションロジットに入るかを決定する。
複素回転固有値とnilpotent応答が同じ欠陥ヨルダンブロックに存在する非半単純ケースについて検討する。
構成は、単にRoPEに別の距離チャネルを追加するのではなく、距離変調された位相基底$d eid$を実現する。
- 参考スコア(独自算出の注目度): 0.36260136172126667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relative positional encodings determine which functions of query-key lag can enter the primitive attention logit. RoPE supplies a rotary phase, while ALiBi supplies an additive distance bias. Motivated by group-theoretic views of linear translation-invariant positional encodings, we study a non-semisimple case in which a complex rotary eigenvalue and a nilpotent response live in the same defective Jordan block. The resulting relative operator generates oscillatory-polynomial features such as $e^{-γd}\cos(ωd)$, $e^{-γd}\sin(ωd)$, $d e^{-γd}\cos(ωd)$, and $d e^{-γd}\sin(ωd)$, for causal lag $d=i-j\geq 0$. Thus the construction realizes a distance-modulated phase basis $d e^{iωd}$, rather than merely adding a separate distance channel to RoPE. We formulate Exact Jordan-RoPE as a non-semisimple one-parameter representation, give its real block form, and specify the contragredient query action required by non-orthogonal positional maps. We also distinguish this exact representation from stabilized variants whose bounded shear improves numerical behavior but breaks the exact group law. Kernel-level diagnostics and a Jordan-friendly synthetic language-model task show that the coupled Jordan basis is useful when the target contains distance-modulated phase interactions. On a small WikiText-103 byte language model, a scaled-exact variant improves over RoPE and direct-sum baselines within the Jordan family, while RoPE+ALiBi remains strongest overall. The evidence is structural rather than a broad performance claim.
- Abstract(参考訳): 相対的な位置エンコーディングは、クエリキーラグのどの関数がプリミティブアテンションロジットに入るかを決定する。
RoPEは回転相を、ALiBiは添加性距離バイアスを供給している。
線形変換不変な位置エンコーディングの群論的視点により、複素回転固有値とnilpotent応答が同じ欠陥ジョーダンブロックに存在する非半単純ケースについて検討する。
結果として生じる相対作用素は、例えば $e^{-γd}\cos(ωd)$, $e^{-γd}\sin(ωd)$, $d e^{-γd}\cos(ωd)$, $d e^{-γd}\sin(ωd)$, for causal lag $d=i-j\geq 0$ のような振動多項式的特徴を生成する。
したがって、構成は、単にRoPEに別の距離チャネルを追加するのではなく、距離変調位相基底$d e^{iωd}$を実現する。
非半単純1パラメータ表現としてExact Jordan-RoPEを定式化し、その実ブロック形式を与え、非直交位置写像で要求される不規則なクエリアクションを指定する。
また、この正確な表現は、有界なせん断が数値的な振舞いを改善するが、正確な群法則を破る安定な変種と区別する。
カーネルレベルの診断とヨルダンフレンドリーな合成言語モデルタスクは、ターゲットが距離変調相の相互作用を含む場合、結合ジョルダン基底が有用であることを示す。
小さな WikiText-103 バイト言語モデルでは、スケールしたexact 変種が、Jordan ファミリー内の RoPE とdirect-sum ベースラインよりも改善され、RoPE+ALiBi は全体として最強である。
証拠は広範な性能主張というよりも構造的なものである。
関連論文リスト
- Group Representational Position Encoding [66.33026480082025]
グループ行動に基づく位置符号化のための統一的なフレームワークであるGRAPEを提案する。
i)乗法回転 (Multiplicative GRAPE) in $mathrmSO(d)$ と (ii)加法ロジットバイアス (Additive GRAPE) は一般線型群 $mathrmGL$ における一等作用から生じる。
論文 参考訳(メタデータ) (2025-12-08T18:39:13Z) - DoPE: Denoising Rotary Position Embedding [60.779039511252584]
トランスフォーマーモデルにおける回転位置埋め込み(RoPE)は、長さを弱める固有の限界を持つ。
ノイズのある特徴写像として位置符号化を用いたアテンションマップを再解釈し、位置補間ページ(DoPE)を提案する。
DoPEは、トランカテッド行列エントロピーに基づくトレーニング不要な手法であり、特徴写像における外乱周波数帯域を検出する。
論文 参考訳(メタデータ) (2025-11-12T09:32:35Z) - A Circular Argument : Does RoPE need to be Equivariant for Vision? [45.33536249657655]
数学的には、RoPEは1次元データに同変位置埋め込みを組み込むための最も一般的な解の1つであることを示す。
我々は,Mixed RoPEに類似した手法であるSpherical RoPEを提案するが,非可換ジェネレータを仮定する。
論文 参考訳(メタデータ) (2025-11-11T15:47:54Z) - Do traveling waves make good positional encodings? [44.55744608160896]
移動波に基づく新しい位置符号化機構であるRollPEを提案する。
従来の絶対的な位置埋め込みよりもはるかに優れていることを示す。
我々は、RolePEの数学的等価性を、RoPEの特定の構成に導出する。
論文 参考訳(メタデータ) (2025-11-11T14:32:45Z) - HoPE: Hyperbolic Rotary Positional Encoding for Stable Long-Range Dependency Modeling in Large Language Models [19.3827288035483]
双曲型回転位置決め法を提案する。
トークン表現にローレンツ回転を実装するために双曲関数を利用する(HoPE)。
テストは、HoPEが既存の位置符号化手法を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-09-05T16:20:48Z) - PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。
家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-05-22T08:36:09Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Lattice partition recovery with dyadic CART [79.96359947166592]
我々は、$d$次元格子上の加法ガウス雑音によって破損したピースワイド定値信号について検討する。
この形式のデータは、多くのアプリケーションで自然に発生し、統計処理や信号処理の文献において、信号の検出やテスト、ノイズの除去、推定といったタスクが広く研究されている。
本稿では,未知の信号の一貫性領域によって誘導される格子の分割を推定する,分割回復の問題について考察する。
我々は、DCARTベースの手順が、下位分割を$sigma2 k*の順序で一貫して推定することを証明した。
論文 参考訳(メタデータ) (2021-05-27T23:41:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。