論文の概要: Approximation Rate of the Transformer Architecture for Sequence Modeling
- arxiv url: http://arxiv.org/abs/2305.18475v2
- Date: Mon, 19 Feb 2024 03:38:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 06:44:25.615532
- Title: Approximation Rate of the Transformer Architecture for Sequence Modeling
- Title(参考訳): シーケンスモデリングのためのトランスフォーマーアーキテクチャの近似率
- Authors: Haotian Jiang, Qianxiao Li
- Abstract要約: 非線型関係のクラスを考察し、トランスフォーマーのジャクソン型近似率推定を明示するために、複雑性尺度の新たな概念を同定する。
この速度はトランスフォーマーの構造特性を明らかにし、それが近似に最も適しているシーケンシャルな関係のタイプを示唆する。
- 参考スコア(独自算出の注目度): 21.461856598336464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture is widely applied in sequence modeling
applications, yet the theoretical understanding of its working principles
remains limited. In this work, we investigate the approximation rate for
single-layer Transformers with one head. We consider a class of non-linear
relationships and identify a novel notion of complexity measures to establish
an explicit Jackson-type approximation rate estimate for the Transformer. This
rate reveals the structural properties of the Transformer and suggests the
types of sequential relationships it is best suited for approximating. In
particular, the results on approximation rates enable us to concretely analyze
the differences between the Transformer and classical sequence modeling
methods, such as recurrent neural networks.
- Abstract(参考訳): トランスフォーマーアーキテクチャはシーケンスモデリングアプリケーションで広く適用されているが、その動作原理の理論的理解は限られている。
本研究では,単層変圧器の1つのヘッドによる近似速度について検討する。
非線形関係のクラスを考察し,変圧器のジャクソン型近似率推定を明示するために,新しい複雑性測度の概念を同定する。
この速度は変圧器の構造特性を明らかにし、近似に最も適するシーケンシャルな関係のタイプを示唆する。
特に、近似レートの結果は、リカレントニューラルネットワークのような古典的シーケンスモデリング手法とトランスフォーマーの違いを具体的に分析することができる。
関連論文リスト
- Dynamics of Transient Structure in In-Context Linear Regression Transformers [0.5242869847419834]
中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。
一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。
局所学習係数によって定義される変圧器のモデル複雑性を測定することにより、この説明を実証的に検証する。
論文 参考訳(メタデータ) (2025-01-29T16:32:14Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysis [8.008567379796666]
Transformerアーキテクチャは、間違いなくディープラーニングに革命をもたらした。
中心となる注意ブロックは、ディープラーニングにおける他のほとんどのアーキテクチャコンポーネントと形式と機能の違いです。
これらの外向きの表現の背後にある根本原因と、それらを管理する正確なメカニズムは、まだ理解されていないままである。
論文 参考訳(メタデータ) (2024-10-14T18:15:02Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling [10.246977481606427]
ドット積自己注意などのトランスフォーマーの異なる成分が表現力に影響を及ぼすメカニズムについて検討する。
本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。
論文 参考訳(メタデータ) (2024-02-01T11:43:13Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Forward and Inverse Approximation Theory for Linear Temporal
Convolutional Networks [20.9427668489352]
我々は近似率推定(ジャクソン型結果)と逆近似定理(ベルンシュタイン型結果)を証明する。
我々は、時間的畳み込みアーキテクチャによって効率的に捕捉できるシーケンシャルな関係のタイプを包括的に評価する。
論文 参考訳(メタデータ) (2023-05-29T11:08:04Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。