論文の概要: Approximation Rate of the Transformer Architecture for Sequence Modeling
- arxiv url: http://arxiv.org/abs/2305.18475v2
- Date: Mon, 19 Feb 2024 03:38:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 06:44:25.615532
- Title: Approximation Rate of the Transformer Architecture for Sequence Modeling
- Title(参考訳): シーケンスモデリングのためのトランスフォーマーアーキテクチャの近似率
- Authors: Haotian Jiang, Qianxiao Li
- Abstract要約: 非線型関係のクラスを考察し、トランスフォーマーのジャクソン型近似率推定を明示するために、複雑性尺度の新たな概念を同定する。
この速度はトランスフォーマーの構造特性を明らかにし、それが近似に最も適しているシーケンシャルな関係のタイプを示唆する。
- 参考スコア(独自算出の注目度): 21.461856598336464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture is widely applied in sequence modeling
applications, yet the theoretical understanding of its working principles
remains limited. In this work, we investigate the approximation rate for
single-layer Transformers with one head. We consider a class of non-linear
relationships and identify a novel notion of complexity measures to establish
an explicit Jackson-type approximation rate estimate for the Transformer. This
rate reveals the structural properties of the Transformer and suggests the
types of sequential relationships it is best suited for approximating. In
particular, the results on approximation rates enable us to concretely analyze
the differences between the Transformer and classical sequence modeling
methods, such as recurrent neural networks.
- Abstract(参考訳): トランスフォーマーアーキテクチャはシーケンスモデリングアプリケーションで広く適用されているが、その動作原理の理論的理解は限られている。
本研究では,単層変圧器の1つのヘッドによる近似速度について検討する。
非線形関係のクラスを考察し,変圧器のジャクソン型近似率推定を明示するために,新しい複雑性測度の概念を同定する。
この速度は変圧器の構造特性を明らかにし、近似に最も適するシーケンシャルな関係のタイプを示唆する。
特に、近似レートの結果は、リカレントニューラルネットワークのような古典的シーケンスモデリング手法とトランスフォーマーの違いを具体的に分析することができる。
関連論文リスト
- Recurrent Transformers with Dynamic Halt [76.62673276574668]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。
本稿では,これらの手法を拡張し,組み合わせるための新しい手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-02-01T19:47:31Z) - Understanding the Expressive Power and Mechanisms of Transformer for
Sequence Modeling [12.105446461064489]
ドット積自己注意などのトランスフォーマーの異なる成分が表現力に影響を及ぼすメカニズムについて検討する。
本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。
論文 参考訳(メタデータ) (2024-02-01T11:43:13Z) - Transformers can optimally learn regression mixture models [22.85684729248361]
変換器は回帰の混合に対して最適な予測器を学習できることを示す。
実験では、トランスフォーマーがサンプル効率のよい方法で回帰の混合を学習できることも示している。
決定理論の最適手順が実際に変換器によって実装可能であることを具体的確に証明する。
論文 参考訳(メタデータ) (2023-11-14T18:09:15Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Forward and Inverse Approximation Theory for Linear Temporal
Convolutional Networks [20.9427668489352]
我々は近似率推定(ジャクソン型結果)と逆近似定理(ベルンシュタイン型結果)を証明する。
我々は、時間的畳み込みアーキテクチャによって効率的に捕捉できるシーケンシャルな関係のタイプを包括的に評価する。
論文 参考訳(メタデータ) (2023-05-29T11:08:04Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Joint Network Topology Inference via Structured Fusion Regularization [70.30364652829164]
結合ネットワークトポロジ推論は、異種グラフ信号から複数のグラフラプラシア行列を学習する標準的な問題を表す。
新規な構造化融合正規化に基づく一般グラフ推定器を提案する。
提案するグラフ推定器は高い計算効率と厳密な理論保証の両方を享受できることを示す。
論文 参考訳(メタデータ) (2021-03-05T04:42:32Z) - Invertible Generative Modeling using Linear Rational Splines [11.510009152620666]
正規化フローは、可逆写像の集合を通して任意の確率分布をモデル化しようとする。
最初のフロー設計ではアフィン変換に基づく結合層マッピングが用いられた。
アフィン変換の代替として機能するイントレピッドは注目されている。
論文 参考訳(メタデータ) (2020-01-15T08:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。