論文の概要: Impact of Positional Encoding: Clean and Adversarial Rademacher Complexity for Transformers under In-Context Regression
- arxiv url: http://arxiv.org/abs/2512.09275v1
- Date: Wed, 10 Dec 2025 02:55:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.377856
- Title: Impact of Positional Encoding: Clean and Adversarial Rademacher Complexity for Transformers under In-Context Regression
- Title(参考訳): 位置エンコーディングの影響--文脈回帰下での変圧器のクリーンかつ逆向きラセマッハ複雑度-
- Authors: Weiyi He, Yue Xing,
- Abstract要約: In-context regression の下で単層変圧器の1次一般化解析を行う。
その結果,PEは一般化ギャップを体系的に拡大することがわかった。
PEによるモデル間のギャップは、攻撃下で拡大され、PEがモデルの脆弱性を増幅することを示す。
- 参考スコア(独自算出の注目度): 5.86461706751327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Positional encoding (PE) is a core architectural component of Transformers, yet its impact on the Transformer's generalization and robustness remains unclear. In this work, we provide the first generalization analysis for a single-layer Transformer under in-context regression that explicitly accounts for a completely trainable PE module. Our result shows that PE systematically enlarges the generalization gap. Extending to the adversarial setting, we derive the adversarial Rademacher generalization bound. We find that the gap between models with and without PE is magnified under attack, demonstrating that PE amplifies the vulnerability of models. Our bounds are empirically validated by a simulation study. Together, this work establishes a new framework for understanding the clean and adversarial generalization in ICL with PE.
- Abstract(参考訳): 位置符号化(PE)はトランスフォーマーの中核的なアーキテクチャ要素であるが、トランスフォーマーの一般化とロバスト性への影響は未だ不明である。
本研究では,完全にトレーニング可能なPEモジュールを明示的に記述した,コンテキスト内回帰に基づく単一層トランスフォーマーの最初の一般化解析を行う。
その結果,PEは一般化ギャップを体系的に拡大することがわかった。
対角的設定を拡張して、対角的ラデマッハ一般化境界を導出する。
PEによるモデル間のギャップは、攻撃下で拡大され、PEがモデルの脆弱性を増幅することを示す。
我々の限界はシミュレーション研究によって実証的に検証されている。
本研究は,PE を用いた ICL のクリーンかつ対向的な一般化を理解するための新たな枠組みを確立する。
関連論文リスト
- On the Limitations and Capabilities of Position Embeddings for Length Generalization [64.50857363288598]
本稿では,LG(Longth Generalization)の性能向上における位置埋め込み(PE)の限界と能力について検討する。
解析の結果、PEは計算能力を拡張せず、位置をまたいだ構造化された計算が可能であることがわかった。
逐次表現複雑性 (Sequential Representation Complexity, SRC) を提案し, SRC がスケールにわたって不変である場合に限り LG が可能であることを予想する。
論文 参考訳(メタデータ) (2025-10-05T10:08:33Z) - Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。
そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。
本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-02T18:07:55Z) - Unpacking Positional Encoding in Transformers: A Spectral Analysis of Content-Position Coupling [10.931433906211534]
ポジショナルエンコーディング(PE)は、トランスフォーマーがシーケンシャルな構造をモデル化できるようにするために不可欠である。
本稿では,Toeplitzと関連する行列のスペクトル特性からPEを解析する統一フレームワークを提案する。
我々は, PE設計の鍵となる原理として, 相対配置Toeplitz信号を用いた明示的コンテンツ相対混合を確立する。
論文 参考訳(メタデータ) (2025-05-19T12:11:13Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。
本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - The Impact of Positional Encoding on Length Generalization in
Transformers [50.48278691801413]
復号器のみの変圧器長一般化性能と5つの異なる位置符号化手法との比較を行った。
その結果,ALiBi,Rotary,APEなどの位置符号化法は,下流タスクにおける長さ一般化には適していないことがわかった。
論文 参考訳(メタデータ) (2023-05-31T00:29:55Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。