論文の概要: Universal Approximation Theorem for a Single-Layer Transformer
- arxiv url: http://arxiv.org/abs/2507.10581v1
- Date: Fri, 11 Jul 2025 11:37:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.745818
- Title: Universal Approximation Theorem for a Single-Layer Transformer
- Title(参考訳): 単層変圧器のユニバーサル近似理論
- Authors: Esmail Gumaan,
- Abstract要約: ディープラーニングでは、バックプロパゲーションアルゴリズムによってトレーニングされた多層ニューラルネットワークを採用している。
トランスフォーマーは自然言語処理において最先端のパフォーマンスを達成した。
本研究では,ReLUアクティベーション付き位置対応フィードフォワードネットワークを付加した自己アテンション層からなる単一層トランスフォーマーが,コンパクト領域上の連続シーケンス・ツー・シーケンスマッピングを任意の精度で実現可能であることを証明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning employs multi-layer neural networks trained via the backpropagation algorithm. This approach has achieved success across many domains and relies on adaptive gradient methods such as the Adam optimizer. Sequence modeling evolved from recurrent neural networks to attention-based models, culminating in the Transformer architecture. Transformers have achieved state-of-the-art performance in natural language processing (for example, BERT and GPT-3) and have been applied in computer vision and computational biology. However, theoretical understanding of these models remains limited. In this paper, we examine the mathematical foundations of deep learning and Transformers and present a novel theoretical result. We review key concepts from linear algebra, probability, and optimization that underpin deep learning, and we analyze the multi-head self-attention mechanism and the backpropagation algorithm in detail. Our main contribution is a universal approximation theorem for Transformers: we prove that a single-layer Transformer, comprising one self-attention layer followed by a position-wise feed-forward network with ReLU activation, can approximate any continuous sequence-to-sequence mapping on a compact domain to arbitrary precision. We provide a formal statement and a complete proof. Finally, we present case studies that demonstrate the practical implications of this result. Our findings advance the theoretical understanding of Transformer models and help bridge the gap between theory and practice.
- Abstract(参考訳): ディープラーニングでは、バックプロパゲーションアルゴリズムによってトレーニングされた多層ニューラルネットワークを採用している。
このアプローチは多くの領域で成功し、アダム・オプティマイザのような適応的な勾配法に依存している。
シーケンスモデリングは、リカレントニューラルネットワークからアテンションベースモデルへと進化し、トランスフォーマーアーキテクチャで頂点に達した。
変換器は自然言語処理(BERTやGPT-3など)で最先端の性能を達成しており、コンピュータビジョンや計算生物学にも応用されている。
しかし、これらのモデルの理論的理解は依然として限られている。
本稿では,ディープラーニングとトランスフォーマーの数学的基礎を考察し,新しい理論的結果を示す。
我々は、線形代数、確率、およびディープラーニングの基盤となる最適化から重要な概念を概観し、多頭部自己認識機構とバックプロパゲーションアルゴリズムを詳細に分析する。
我々の主な貢献は変換器の普遍近似定理である: 1つの自己アテンション層と、ReLUアクティベーションを持つ位置ワイドフィードフォワードネットワークからなる単層変換器は、コンパクト領域上の任意の連続シーケンス-シーケンスマッピングを任意の精度で近似することができることを証明する。
正式な声明と完全な証明を提供する。
最後に、この結果の実践的意義を示すケーススタディについて述べる。
我々の発見はトランスフォーマーモデルの理論的理解を前進させ、理論と実践のギャップを埋める助けとなる。
関連論文リスト
- Graded Transformers: A Symbolic-Geometric Approach to Structured Learning [0.0]
ベクトル空間上の階調変換を通じて帰納バイアスを埋め込む新しいシーケンスモデルを導入する。
Graded Transformerは階層的学習とニューロシンボリック推論のための変換ポテンシャルを持つ。
この研究は、幾何学的および代数的原理と注意機構を融合させることにより、構造化されたディープラーニングを促進する。
論文 参考訳(メタデータ) (2025-07-27T02:34:08Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - NAR-Former V2: Rethinking Transformer for Universal Neural Network
Representation Learning [25.197394237526865]
本稿では,トランスフォーマーに基づく汎用ニューラルネットワーク表現学習モデル NAR-Former V2 を提案する。
具体的には、ネットワークをグラフとして取り、簡単なトークン化器を設計して、ネットワークをシーケンスにエンコードする。
我々は,GNNの帰納的表現学習能力をTransformerに組み込んだ。
論文 参考訳(メタデータ) (2023-06-19T09:11:04Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Approximation Rate of the Transformer Architecture for Sequence Modeling [18.166959969957315]
非線型関係のクラスを考察し、トランスフォーマーのジャクソン型近似率推定を明示するために、複雑性尺度の新たな概念を同定する。
この速度はトランスフォーマーの構造特性を明らかにし、それが近似に最も適しているシーケンシャルな関係のタイプを示唆する。
論文 参考訳(メタデータ) (2023-05-29T10:56:36Z) - Predictive Coding beyond Gaussian Distributions [38.51699576854394]
予測符号化(英: Predictive coding, PC)は、階層型ガウス生成モデルに基づく推論を行う神経科学に着想を得た手法である。
これらの手法は、複雑な層やアクティベーション関数のダイナミクスを複製できないため、現代のニューラルネットワークに従わない。
提案手法は,条件付き言語モデルにおいて,トランスフォーマネットワークをトレーニングし,BPに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2022-11-07T12:02:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。