Fugu-MT 論文翻訳(概要): Approximation Rate of the Transformer Architecture for Sequence Modeling

論文の概要: Approximation Rate of the Transformer Architecture for Sequence Modeling

arxiv url: http://arxiv.org/abs/2305.18475v2
Date: Mon, 19 Feb 2024 03:38:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 06:44:25.615532
Title: Approximation Rate of the Transformer Architecture for Sequence Modeling
Title（参考訳）: シーケンスモデリングのためのトランスフォーマーアーキテクチャの近似率
Authors: Haotian Jiang, Qianxiao Li
Abstract要約: 非線型関係のクラスを考察し、トランスフォーマーのジャクソン型近似率推定を明示するために、複雑性尺度の新たな概念を同定する。この速度はトランスフォーマーの構造特性を明らかにし、それが近似に最も適しているシーケンシャルな関係のタイプを示唆する。
参考スコア（独自算出の注目度）: 21.461856598336464
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Transformer architecture is widely applied in sequence modeling applications, yet the theoretical understanding of its working principles remains limited. In this work, we investigate the approximation rate for single-layer Transformers with one head. We consider a class of non-linear relationships and identify a novel notion of complexity measures to establish an explicit Jackson-type approximation rate estimate for the Transformer. This rate reveals the structural properties of the Transformer and suggests the types of sequential relationships it is best suited for approximating. In particular, the results on approximation rates enable us to concretely analyze the differences between the Transformer and classical sequence modeling methods, such as recurrent neural networks.
Abstract（参考訳）: トランスフォーマーアーキテクチャはシーケンスモデリングアプリケーションで広く適用されているが、その動作原理の理論的理解は限られている。本研究では,単層変圧器の1つのヘッドによる近似速度について検討する。非線形関係のクラスを考察し,変圧器のジャクソン型近似率推定を明示するために,新しい複雑性測度の概念を同定する。この速度は変圧器の構造特性を明らかにし、近似に最も適するシーケンシャルな関係のタイプを示唆する。特に、近似レートの結果は、リカレントニューラルネットワークのような古典的シーケンスモデリング手法とトランスフォーマーの違いを具体的に分析することができる。

関連論文リスト

Universal Approximation Theorem for a Single-Layer Transformer [0.0]
ディープラーニングでは、バックプロパゲーションアルゴリズムによってトレーニングされた多層ニューラルネットワークを採用している。トランスフォーマーは自然言語処理において最先端のパフォーマンスを達成した。本研究では,ReLUアクティベーション付き位置対応フィードフォワードネットワークを付加した自己アテンション層からなる単一層トランスフォーマーが,コンパクト領域上の連続シーケンス・ツー・シーケンスマッピングを任意の精度で実現可能であることを証明した。
論文参考訳（メタデータ） (2025-07-11T11:37:39Z)
Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文参考訳（メタデータ） (2025-06-28T01:46:36Z)
In-Context Learning of Linear Dynamical Systems with Transformers: Error Bounds and Depth-Separation [16.748746646611412]
本稿では,雑音の線形力学系群を表す変圧器の文脈内学習能力の近似論的側面について検討する。最初の理論的結果は、タスク間で一様に定義された$L2$-testing損失に対して、多層変圧器の近似誤差の上限を確立する。 2つ目の結果は、単層線形変圧器のクラスに対する近似誤差の非最小化下界を確立することである。
論文参考訳（メタデータ） (2025-02-12T05:40:11Z)
Dynamics of Transient Structure in In-Context Linear Regression Transformers [0.5242869847419834]
中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。局所学習係数によって定義される変圧器のモデル複雑性を測定することにより、この説明を実証的に検証する。
論文参考訳（メタデータ） (2025-01-29T16:32:14Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysis [8.008567379796666]
Transformerアーキテクチャは、間違いなくディープラーニングに革命をもたらした。中心となる注意ブロックは、ディープラーニングにおける他のほとんどのアーキテクチャコンポーネントと形式と機能の違いです。これらの外向きの表現の背後にある根本原因と、それらを管理する正確なメカニズムは、まだ理解されていないままである。
論文参考訳（メタデータ） (2024-10-14T18:15:02Z)
Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。この設定における多層トランスの理論的解析はこれが初めてである。
論文参考訳（メタデータ） (2024-10-10T18:29:05Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling [10.246977481606427]
ドット積自己注意などのトランスフォーマーの異なる成分が表現力に影響を及ぼすメカニズムについて検討する。本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。
論文参考訳（メタデータ） (2024-02-01T11:43:13Z)
Transformers can optimally learn regression mixture models [22.85684729248361]
変換器は回帰の混合に対して最適な予測器を学習できることを示す。実験では、トランスフォーマーがサンプル効率のよい方法で回帰の混合を学習できることも示している。決定理論の最適手順が実際に変換器によって実装可能であることを具体的確に証明する。
論文参考訳（メタデータ） (2023-11-14T18:09:15Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)
Forward and Inverse Approximation Theory for Linear Temporal Convolutional Networks [20.9427668489352]
我々は近似率推定(ジャクソン型結果)と逆近似定理(ベルンシュタイン型結果)を証明する。我々は、時間的畳み込みアーキテクチャによって効率的に捕捉できるシーケンシャルな関係のタイプを包括的に評価する。
論文参考訳（メタデータ） (2023-05-29T11:08:04Z)
Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。 Transformerモデルをより効率的にすることに注力している。
論文参考訳（メタデータ） (2023-02-27T18:18:13Z)
CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文参考訳（メタデータ） (2021-12-31T04:37:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。