論文の概要: Unpacking Positional Encoding in Transformers: A Spectral Analysis of Content-Position Coupling
- arxiv url: http://arxiv.org/abs/2505.13027v1
- Date: Mon, 19 May 2025 12:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.579446
- Title: Unpacking Positional Encoding in Transformers: A Spectral Analysis of Content-Position Coupling
- Title(参考訳): 変圧器における位置符号化のアンパック化:コンテンツ・ポジション・カップリングのスペクトル解析
- Authors: Zihan Gu, Han Zhang, Ruoyu Chen, Yue Hu, Hua Zhang,
- Abstract要約: ポジショナルエンコーディング(PE)は、トランスフォーマーがシーケンシャルな構造をモデル化できるようにするために不可欠である。
本稿では,Toeplitzと関連する行列のスペクトル特性からPEを解析する統一フレームワークを提案する。
我々は, PE設計の鍵となる原理として, 相対配置Toeplitz信号を用いた明示的コンテンツ相対混合を確立する。
- 参考スコア(独自算出の注目度): 10.931433906211534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Positional encoding (PE) is essential for enabling Transformers to model sequential structure. However, the mechanisms by which different PE schemes couple token content and positional information-and how these mechanisms influence model dynamics-remain theoretically underexplored. In this work, we present a unified framework that analyzes PE through the spectral properties of Toeplitz and related matrices derived from attention logits. We show that multiplicative content-position coupling-exemplified by Rotary Positional Encoding (RoPE) via a Hadamard product with a Toeplitz matrix-induces spectral contraction, which theoretically improves optimization stability and efficiency. Guided by this theory, we construct synthetic tasks that contrast content-position dependent and content-position independent settings, and evaluate a range of PE methods. Our experiments reveal strong alignment with theory: RoPE consistently outperforms other methods on position-sensitive tasks and induces "single-head deposit" patterns in early layers, indicating localized positional processing. Further analyses show that modifying the method and timing of PE coupling, such as MLA in Deepseek-V3, can effectively mitigate this concentration. These results establish explicit content-relative mixing with relative-position Toeplitz signals as a key principle for effective PE design and provide new insight into how positional structure is integrated in Transformer architectures.
- Abstract(参考訳): ポジショナルエンコーディング(PE)は、トランスフォーマーがシーケンシャルな構造をモデル化できるようにするために不可欠である。
しかし、異なるPEスキームがトークンの内容と位置情報とを結合するメカニズムと、これらのメカニズムがモデル力学にどのように影響するかは理論的に過小評価されている。
本研究では,トイプリッツのスペクトル特性とアテンションロジットから導出される関連する行列からPEを分析する統一的なフレームワークを提案する。
本稿では,ロタリー位置エンコーディング(RoPE)による乗法的コンテントポジション結合を,Toeplitz行列を用いたアダマール積を用いて実現し,理論的に最適化安定性と効率を向上するスペクトル収縮を導出することを示す。
この理論を導いた本研究では,コンテンツ配置依存とコンテンツ配置独立設定を対比する合成タスクを構築し,様々なPE手法の評価を行う。
RoPEは位置感性タスクの他の手法を一貫して上回り、初期層における「単一頭頂沈着」パターンを誘導し、局所的な位置処理を示す。
さらに、Deepseek-V3におけるMLAのようなPEカップリングの方法やタイミングを変更することで、この濃度を効果的に緩和できることを示した。
これらの結果は、効果的なPE設計の鍵となる原理として、相対配置のToeplitz信号との明確なコンテンツ相対混合を確立し、Transformerアーキテクチャに位置構造がどのように統合されているかの新しい知見を提供する。
関連論文リスト
- LOOPE: Learnable Optimal Patch Order in Positional Embeddings for Vision Transformers [0.0]
位置埋め込みは視覚変換器(ViT)において重要な役割を担っている。
既存の手法は、主に位置埋め込みにおけるパッチ順序の影響を見落としているか、調査したことがない。
与えられた周波数集合に対する空間表現を最適化する学習可能なパッチ順序付け法である LOOPE を提案する。
論文 参考訳(メタデータ) (2025-04-19T19:20:47Z) - Manifestation of critical effects in environmental parameter estimation using a quantum sensor under dynamical control [0.0]
環境記憶時間$tau_c$の推定における臨界行動の出現について検討する。
本研究は,量子パラメータ推定の精度向上を目的とした適応制御戦略の道を開くものである。
論文 参考訳(メタデータ) (2025-04-11T08:42:29Z) - Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models [55.46269953415811]
ToM感受性パラメータを同定し、これらのパラメータの0.001%の摂動がToM性能を著しく低下させることを示す。
我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-05T17:45:42Z) - Reward driven workflows for unsupervised explainable analysis of phases and ferroic variants from atomically resolved imaging data [14.907891992968361]
本研究では,教師なしML手法の鍵ハイパーパラメータを最適化するために,報酬駆動型アプローチが利用できることを示す。
このアプローチにより、特定の物理的な振る舞いに最も適したローカルな記述子を見つけることができる。
また、変分オートエンコーダ(VAE)を介して変動の構造因子を乱すよう誘導される報酬も拡張する。
論文 参考訳(メタデータ) (2024-11-19T16:18:20Z) - Beyond Position: the emergence of wavelet-like properties in Transformers [7.3645788720974465]
本稿では, ロータリー位置埋め込み(RoPE)の理論的限界を効果的に補償する頑健なウェーブレット様特性をトランスフォーマーモデルがいかに発展させるかを検討する。
本研究では,ウェーブレット変換に類似したマルチレゾリューション処理を実装するために,注目ヘッドが自然に進化することを示す。
論文 参考訳(メタデータ) (2024-10-23T17:48:28Z) - A Theoretical Analysis of Self-Supervised Learning for Vision Transformers [66.08606211686339]
マスク付きオートエンコーダ(MAE)とコントラスト学習(CL)は異なる種類の表現をキャプチャする。
我々は,MAEとCLの両目的に対して,一層ソフトマックス型視覚変換器(ViT)のトレーニングダイナミクスについて検討した。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - PHN: Parallel heterogeneous network with soft gating for CTR prediction [2.9722444664527243]
本稿では並列構造を持つネットワークを構成する並列不均一ネットワーク(PHN)モデルを提案する。
トレーニング可能なパラメータとの残留リンクは、弱い勾配現象の影響を軽減するためにネットワークで使用される。
論文 参考訳(メタデータ) (2022-06-18T11:37:53Z) - Spectral Tensor Train Parameterization of Deep Learning Layers [136.4761580842396]
重み行列の低ランクパラメータ化をDeep Learningコンテキストに埋め込まれたスペクトル特性を用いて検討する。
分類設定におけるニューラルネットワーク圧縮の効果と,生成的対角トレーニング設定における圧縮および安定性トレーニングの改善について述べる。
論文 参考訳(メタデータ) (2021-03-07T00:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。