論文の概要: Theoretical Analysis of Positional Encodings in Transformer Models: Impact on Expressiveness and Generalization
- arxiv url: http://arxiv.org/abs/2506.06398v1
- Date: Thu, 05 Jun 2025 23:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.028926
- Title: Theoretical Analysis of Positional Encodings in Transformer Models: Impact on Expressiveness and Generalization
- Title(参考訳): 変圧器モデルにおける位置エンコーディングの理論解析:表現性と一般化への影響
- Authors: Yin Li,
- Abstract要約: 位置エンコーディングはトランスフォーマーベースのモデルの中核部分である。
本稿では, 様々な位置符号化手法がトランスフォーマーの表現性, 一般化能力, より長いシーケンスに対する外挿にどのように影響するかを解析する。
- 参考スコア(独自算出の注目度): 10.034655199520168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Positional encodings are a core part of transformer-based models, enabling processing of sequential data without recurrence. This paper presents a theoretical framework to analyze how various positional encoding methods, including sinusoidal, learned, relative, and bias-based methods like Attention with Linear Biases (ALiBi), impact a transformer's expressiveness, generalization ability, and extrapolation to longer sequences. Expressiveness is defined via function approximation, generalization bounds are established using Rademacher complexity, and new encoding methods based on orthogonal functions, such as wavelets and Legendre polynomials, are proposed. The extrapolation capacity of existing and proposed encodings is analyzed, extending ALiBi's biasing approach to a unified theoretical context. Experimental evaluation on synthetic sequence-to-sequence tasks shows that orthogonal transform-based encodings outperform traditional sinusoidal encodings in generalization and extrapolation. This work addresses a critical gap in transformer theory, providing insights for design choices in natural language processing, computer vision, and other transformer applications.
- Abstract(参考訳): 位置エンコーディングはトランスフォーマーベースのモデルの中核部分であり、逐次データを処理することができる。
本稿では, 正弦波, 学習, 相対的, バイアスに基づく手法であるAtention with Linear Biases (ALiBi) が, トランスフォーマーの表現性, 一般化能力, より長いシーケンスに対する外挿にどのように影響するかを理論的枠組みを提案する。
関数近似を用いて表現性を定義し,Rademacher複雑性を用いて一般化境界を確立し,ウェーブレットやルジャンドル多項式などの直交関数に基づく新しい符号化手法を提案する。
既存の符号化と提案された符号化の補間能力を分析し、ALiBiの偏りのアプローチを統一された理論的文脈に拡張する。
合成シーケンス・ツー・シーケンスタスクの実験的評価は、直交変換に基づく符号化が一般化と外挿において従来の正弦波符号化より優れていることを示している。
この研究はトランスフォーマー理論における重要なギャップに対処し、自然言語処理、コンピュータビジョン、その他のトランスフォーマーアプリケーションにおける設計選択に関する洞察を提供する。
関連論文リスト
- Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器の1次論理的推論能力をパラメータ化知識を用いて一般化する。
本稿では,一階述語論理エンターメントの性能を大幅に向上させる論理認識アーキテクチャTEGAを提案する。
論文 参考訳(メタデータ) (2025-01-01T07:05:32Z) - EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。
意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。
意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文 参考訳(メタデータ) (2024-03-26T14:18:43Z) - Transduce: learning transduction grammars for string transformation [0.0]
帰納的バイアスを伴わない1つまたは2つの正の例から位置変換を効率的に学習する新しいアルゴリズムTransduceを提案する。
実験により,Transduceは1つないし2つの正の例から効率よく位置変換を学習できることを示した。
論文 参考訳(メタデータ) (2023-12-14T07:59:02Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Linearized Relative Positional Encoding [43.898057545832366]
相対的な位置符号化は、位置情報を表すためにバニラや線形変換器で広く使われている。
従来の線形相対的位置符号化手法を正準形式にまとめる。
さらに,一元変換を用いた線形相対的位置符号化アルゴリズムのファミリを提案する。
論文 参考訳(メタデータ) (2023-07-18T13:56:43Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Transformer Meets Boundary Value Inverse Problems [4.165221477234755]
変圧器を用いた深部直接サンプリング法は境界値逆問題のクラスを解くために提案される。
慎重に設計されたデータと再構成された画像の間に学習した逆演算子を評価することにより、リアルタイムな再構成を実現する。
論文 参考訳(メタデータ) (2022-09-29T17:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。