Fugu-MT 論文翻訳(概要): Effective Theory of Transformers at Initialization

論文の概要: Effective Theory of Transformers at Initialization

arxiv url: http://arxiv.org/abs/2304.02034v1
Date: Tue, 4 Apr 2023 18:00:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-06 14:34:30.387344
Title: Effective Theory of Transformers at Initialization
Title（参考訳）: 初期化における変圧器の有効理論
Authors: Emily Dinan, Sho Yaida, Susan Zhang
Abstract要約: 広帯域・深層変圧器におけるフォワード・バックワード信号伝搬の有効理論解析を行う。我々は、現実的な設定でビジョンと言語変換器を訓練する。
参考スコア（独自算出の注目度）: 15.032518402162449
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We perform an effective-theory analysis of forward-backward signal propagation in wide and deep Transformers, i.e., residual neural networks with multi-head self-attention blocks and multilayer perceptron blocks. This analysis suggests particular width scalings of initialization and training hyperparameters for these models. We then take up such suggestions, training Vision and Language Transformers in practical setups.
Abstract（参考訳）: 我々は,多層自己認識ブロックと多層パーセプトロンブロックを有する残差ニューラルネットワークを用いて,広帯域および深層トランスフォーマーにおける前方信号伝搬の効果的な理論解析を行う。この分析は、これらのモデルの初期化とトレーニングハイパーパラメータの特定の幅スケーリングを示唆する。そして、このような提案を実践的なセットアップでビジョンと言語変換をトレーニングします。

関連論文リスト

Universal Approximation Theorem for a Single-Layer Transformer [0.0]
ディープラーニングでは、バックプロパゲーションアルゴリズムによってトレーニングされた多層ニューラルネットワークを採用している。トランスフォーマーは自然言語処理において最先端のパフォーマンスを達成した。本研究では,ReLUアクティベーション付き位置対応フィードフォワードネットワークを付加した自己アテンション層からなる単一層トランスフォーマーが,コンパクト領域上の連続シーケンス・ツー・シーケンスマッピングを任意の精度で実現可能であることを証明した。
論文参考訳（メタデータ） (2025-07-11T11:37:39Z)
Beyond Position: the emergence of wavelet-like properties in Transformers [7.3645788720974465]
本稿では, ロータリー位置埋め込み(RoPE)の理論的限界を効果的に補償する頑健なウェーブレット様特性をトランスフォーマーモデルがいかに発展させるかを検討する。本研究では,ウェーブレット変換に類似したマルチレゾリューション処理を実装するために,注目ヘッドが自然に進化することを示す。
論文参考訳（メタデータ） (2024-10-23T17:48:28Z)
Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文参考訳（メタデータ） (2024-09-28T13:24:11Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
Transformers need glasses! Information over-squashing in language tasks [18.81066657470662]
復号器のみの変換器における情報伝達について検討する。変換器への入力の特定のシーケンスは、最終的なトークンにおいて任意にクローズな表現が得られることを示す。また,デコーダのみのトランスフォーマー言語モデルでは,入力中の特定のトークンに対する感度が低下することを示す。
論文参考訳（メタデータ） (2024-06-06T17:14:44Z)
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerモデルのサイズが大きくなると、パフォーマンスが向上するとは限らない。モデルがトレーニングサンプルを記憶するにつれて、一般化能力が向上する。本稿では,変圧器に基づく言語モデルの記憶過程と性能動態に光を当てる理論的枠組みを提案する。
論文参考訳（メタデータ） (2024-05-14T15:48:36Z)
Nonparametric Variational Regularisation of Pretrained Transformers [15.313475675235843]
トランスフォーマーにおけるクロスアテンションをトレーニングするためのレギュラーとして,Non Variational Information Bottleneck (NVIB)を提案する。初期化の変更は、注意機構における新しい、情報理論的なポストトレーニング正則化をもたらすことを示す。
論文参考訳（メタデータ） (2023-12-01T15:40:30Z)
On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文参考訳（メタデータ） (2023-11-02T20:03:05Z)
Mnemosyne: Learning to Train Transformers with Transformers [18.36543176998175]
Mnemosyneは最小限の計算資源を必要とする単純なメタトレーニング戦略を用いてトランスフォーマーのトレーニングを成功させることができることを示す。 Mnemosyneは、手作業で設計された一階述語に匹敵する複雑さを提供する。
論文参考訳（メタデータ） (2023-02-02T14:40:28Z)
Convexifying Transformers: Improving optimization and understanding of transformer networks [56.69983975369641]
本研究では,注目/変圧器ネットワークのトレーニング問題について検討し,新しい凸解析手法を提案する。まず,自己注意機構の代替として凸を導入し,変圧器ネットワークの正規化学習問題を再構成する。凸解析の副産物として,トークン間の空間性を促進する暗黙の規則化機構を明らかにする。
論文参考訳（メタデータ） (2022-11-20T18:17:47Z)
Transformers Solve the Limited Receptive Field for Monocular Depth Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文参考訳（メタデータ） (2021-03-22T18:00:13Z)
Parameter Efficient Multimodal Transformers for Video Representation Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文参考訳（メタデータ） (2020-12-08T00:16:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。