論文の概要: Approximation theory of transformer networks for sequence modeling
- arxiv url: http://arxiv.org/abs/2305.18475v1
- Date: Mon, 29 May 2023 10:56:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 20:36:24.042207
- Title: Approximation theory of transformer networks for sequence modeling
- Title(参考訳): シーケンスモデリングのための変圧器ネットワークの近似理論
- Authors: Haotian Jiang, Qianxiao Li
- Abstract要約: まず、変圧器仮説空間に対する普遍近似定理を証明する。
次に、明示的な近似率の推定を証明できる新しい正則性の概念を同定する。
この推定は変換器の重要な構造特性を明らかにし、変換器が近似に適応する配列関係のタイプを示唆する。
- 参考スコア(独自算出の注目度): 20.9427668489352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformer is a widely applied architecture in sequence modeling
applications, but the theoretical understanding of its working principles is
limited. In this work, we investigate the ability of transformers to
approximate sequential relationships. We first prove a universal approximation
theorem for the transformer hypothesis space. From its derivation, we identify
a novel notion of regularity under which we can prove an explicit approximation
rate estimate. This estimate reveals key structural properties of the
transformer and suggests the types of sequence relationships that the
transformer is adapted to approximating. In particular, it allows us to
concretely discuss the structural bias between the transformer and classical
sequence modeling methods, such as recurrent neural networks. Our findings are
supported by numerical experiments.
- Abstract(参考訳): トランスフォーマーはシーケンスモデリングアプリケーションで広く応用されているアーキテクチャであるが、その動作原理の理論的理解は限られている。
本研究では,変換器の逐次関係を近似する能力について検討する。
まず、変圧器仮説空間に対する普遍近似定理を証明する。
その導出から、明示的な近似率の推定を証明できる新しい正則性の概念を同定する。
この推定は変圧器の重要な構造特性を明らかにし、変圧器が近似に適応する系列関係のタイプを示唆する。
特に、トランスフォーマーとリカレントニューラルネットワークのような古典的なシーケンスモデリング手法との間の構造バイアスを具体的に議論することができる。
我々の発見は数値実験によって裏付けられている。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysis [8.008567379796666]
Transformerアーキテクチャは、間違いなくディープラーニングに革命をもたらした。
中心となる注意ブロックは、ディープラーニングにおける他のほとんどのアーキテクチャコンポーネントと形式と機能の違いです。
これらの外向きの表現の背後にある根本原因と、それらを管理する正確なメカニズムは、まだ理解されていないままである。
論文 参考訳(メタデータ) (2024-10-14T18:15:02Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling [10.246977481606427]
ドット積自己注意などのトランスフォーマーの異なる成分が表現力に影響を及ぼすメカニズムについて検討する。
本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。
論文 参考訳(メタデータ) (2024-02-01T11:43:13Z) - Transformers can optimally learn regression mixture models [22.85684729248361]
変換器は回帰の混合に対して最適な予測器を学習できることを示す。
実験では、トランスフォーマーがサンプル効率のよい方法で回帰の混合を学習できることも示している。
決定理論の最適手順が実際に変換器によって実装可能であることを具体的確に証明する。
論文 参考訳(メタデータ) (2023-11-14T18:09:15Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Forward and Inverse Approximation Theory for Linear Temporal
Convolutional Networks [20.9427668489352]
我々は近似率推定(ジャクソン型結果)と逆近似定理(ベルンシュタイン型結果)を証明する。
我々は、時間的畳み込みアーキテクチャによって効率的に捕捉できるシーケンシャルな関係のタイプを包括的に評価する。
論文 参考訳(メタデータ) (2023-05-29T11:08:04Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。