論文の概要: On the Geometry of Positional Encodings in Transformers
- arxiv url: http://arxiv.org/abs/2604.05217v1
- Date: Mon, 06 Apr 2026 22:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.514611
- Title: On the Geometry of Positional Encodings in Transformers
- Title(参考訳): 変圧器の位置符号化の幾何学について
- Authors: Giansalvo Cirrincione,
- Abstract要約: 位置エンコーディングは、主に試行錯誤によって設計されており、それらがすべきことに関する数学的理論がない。
本稿ではそのような理論を発展させる。
BERTベースを用いたSST-2およびIMDB実験により理論的予測が確定し、線形バイアス(ALiBi)による注意が正弦波符号化および回転位置埋め込み(RoPE)よりもはるかに低ストレスであることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural language models process sequences of words, but the mathematical operations inside them are insensitive to the order in which words appear. Positional encodings are the component added to remedy this. Despite their importance, positional encodings have been designed largely by trial and error, without a mathematical theory of what they ought to do. This paper develops such a theory. Four results are established. First, any Transformer without a positional signal cannot solve any task sensitive to word order (Necessity Theorem). Second, training assigns distinct vector representations to distinct sequence positions at every global minimiser, under mild and verifiable conditions (Positional Separation Theorem). Third, the best achievable approximation to an information-optimal encoding is constructed via classical multidimensional scaling (MDS) on the Hellinger distance between positional distributions; the quality of any encoding is measured by a single number, the stress (Proposition 5, Algorithm 1). Fourth, the optimal encoding has effective rank r = rank(B) <= n-1 and can be represented with r(n+d) parameters instead of nd (minimal parametrisation result). Appendix A develops a proof of the Monotonicity Conjecture within the Neural Tangent Kernel (NTK) regime for masked language modelling (MLM) losses, sequence classification losses, and general losses satisfying a positional sufficiency condition, through five lemmas. Experiments on SST-2 and IMDB with BERT-base confirm the theoretical predictions and reveal that Attention with Linear Biases (ALiBi) achieves much lower stress than the sinusoidal encoding and Rotary Position Embedding (RoPE), consistent with a rank-1 interpretation of the MDS encoding under approximate shift-equivariance.
- Abstract(参考訳): ニューラルネットワークモデルは単語の列を処理するが、その中の数学的操作は単語が現れる順序に無関心である。
位置エンコーディングは、これを治療するために追加されたコンポーネントである。
その重要性にもかかわらず、位置符号化は主に試行錯誤によって設計されており、それらがすべきことに関する数学的理論は存在していない。
本稿ではそのような理論を発展させる。
4つの結果が得られた。
まず、位置信号のない変換器は、単語順序に敏感なタスク(必要定理)を解くことができない。
第二に、訓練は、軽度で検証可能な条件 (Positional Separation Theorem) の下で、異なるベクトル表現をすべての大域小数点における異なるシーケンス位置に割り当てる。
第3に、情報-最適符号化に対する最良の近似は、位置分布間のヘルリンガー距離上の古典的多次元スケーリング(MDS)によって構成され、任意の符号化の品質は1つの数で測定される(命題5アルゴリズム1)。
第4に、最適符号化は有効ランク r = rank(B) <= n-1 を持ち、nd の代わりに r(n+d) パラメータで表すことができる。
Appendix Aは、5つの補題を通して、マスク付き言語モデリング(MLM)の損失、シーケンス分類の損失、および位置充足条件を満たす一般的な損失に対するNTK(Neural Tangent Kernel)システム内のモノトニック性導出の証明を開発する。
SST-2 と IMDB をBERT-base を用いて実験した結果, 線形バイアス (ALiBi) によるアテンションは正弦波符号化や回転位置埋め込み (RoPE) よりもはるかに低ストレスであり, 近似シフト等価性の下でのMDSエンコーディングのランク1の解釈と一致していることがわかった。
関連論文リスト
- Fractal Language Modelling by Universal Sequence Maps (USM) [0.0]
ユニバーサルシーケンスマップ(Universal Sequence Map、USM)は、記号列を埋め込み数値空間にエンコードする反復関数である。
本報告では, 反復過程に影響を及ぼす発芽バイアスを解消することにより, ユニバーサルシーケンスマップ(USM)によるフラクタル符号化を推し進める。
論文 参考訳(メタデータ) (2025-08-08T18:41:13Z) - SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文 参考訳(メタデータ) (2025-06-16T09:16:40Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Efficient Syndrome Decoder for Heavy Hexagonal QECC via Machine Learning [1.1156329459915602]
近年の進歩により、トポロジカルコードは機械学習(ML)技術の展開によって効率的に復号化可能であることが示されている。
まず、ヘキサゴナルコードのためのMLベースのデコーダを提案し、しきい値と擬似閾値の値でその効率性を確立する。
等価なエラークラスを決定するランクに基づく新しい手法が提案され、線形探索に基づくクラスよりも経験的に高速である。
論文 参考訳(メタデータ) (2022-10-18T10:16:14Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - perm2vec: Graph Permutation Selection for Decoding of Error Correction
Codes using Self-Attention [19.879263834757758]
本稿では、ドメイン知識と機械学習の概念を組み合わせた、置換選択のためのデータ駆動フレームワークを提案する。
この研究は、物理層通信システムにおけるニューラルトランスフォーマーネットワークの利点を利用する最初のものである。
論文 参考訳(メタデータ) (2020-02-06T15:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。