Fugu-MT 論文翻訳(概要): A Neural ODE Interpretation of Transformer Layers

論文の概要: A Neural ODE Interpretation of Transformer Layers

arxiv url: http://arxiv.org/abs/2212.06011v1
Date: Mon, 12 Dec 2022 16:18:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-13 15:26:22.646260
Title: A Neural ODE Interpretation of Transformer Layers
Title（参考訳）: 変圧器層のニューラルネットワークによる解釈
Authors: Yaofeng Desmond Zhong and Tongtao Zhang and Amit Chakraborty and Biswadip Dey
Abstract要約: マルチヘッドアテンションとマルチレイヤパーセプトロン(MLP)レイヤの交互パターンを使用するトランスフォーマーレイヤは、さまざまな機械学習問題に対して効果的なツールを提供する。我々は、この接続を構築し、トランス層の内部構造を変更することを提案する。実験により, この簡単な修正により, 複数のタスクにおけるトランスフォーマーネットワークの性能が向上することが示された。
参考スコア（独自算出の注目度）: 8.839601328192957
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer layers, which use an alternating pattern of multi-head attention and multi-layer perceptron (MLP) layers, provide an effective tool for a variety of machine learning problems. As the transformer layers use residual connections to avoid the problem of vanishing gradients, they can be viewed as the numerical integration of a differential equation. In this extended abstract, we build upon this connection and propose a modification of the internal architecture of a transformer layer. The proposed model places the multi-head attention sublayer and the MLP sublayer parallel to each other. Our experiments show that this simple modification improves the performance of transformer networks in multiple tasks. Moreover, for the image classification task, we show that using neural ODE solvers with a sophisticated integration scheme further improves performance.
Abstract（参考訳）: マルチヘッドアテンションとマルチレイヤパーセプトロン(MLP)レイヤの交互パターンを使用するトランスフォーマーレイヤは、さまざまな機械学習問題に対して効果的なツールを提供する。変圧器層は勾配の解消の問題を避けるために残差接続を用いるため、微分方程式の数値積分と見なすことができる。この拡張抽象化では、この接続の上に構築し、トランス層の内部構造を変更することを提案する。提案モデルでは,マルチヘッドアテンションサブレイヤとMLPサブレイヤを並列に配置する。この簡単な修正により,複数のタスクにおけるトランスフォーマーネットワークの性能が向上することを示す。さらに,画像分類タスクにおいて,高度な統合スキームを持つニューラルodeソルバを用いることにより,さらに性能が向上することを示す。

関連論文リスト

GITO: Graph-Informed Transformer Operator for Learning Complex Partial Differential Equations [0.0]
複素偏微分方程式系を学習するための新しいグラフインフォームド・トランスフォーマ演算子(GITO)アーキテクチャを提案する。 GITOは、HGT(Hybrid graph transformer)とTNO(Transformer Neural operator)の2つの主要モジュールから構成される。ベンチマークPDEタスクの実験的結果は、GITOが既存のトランスフォーマーベースのニューラル演算子より優れていることを示している。
論文参考訳（メタデータ） (2025-06-16T18:35:45Z)
In-Context Learning of Linear Dynamical Systems with Transformers: Error Bounds and Depth-Separation [16.748746646611412]
本稿では,雑音の線形力学系群を表す変圧器の文脈内学習能力の近似論的側面について検討する。最初の理論的結果は、タスク間で一様に定義された$L2$-testing損失に対して、多層変圧器の近似誤差の上限を確立する。 2つ目の結果は、単層線形変圧器のクラスに対する近似誤差の非最小化下界を確立することである。
論文参考訳（メタデータ） (2025-02-12T05:40:11Z)
Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。 SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文参考訳（メタデータ） (2024-06-17T07:24:38Z)
Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文参考訳（メタデータ） (2024-02-23T19:34:06Z)
CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文参考訳（メタデータ） (2023-12-14T01:33:18Z)
SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood Filling [1.0128808054306186]
本稿では,畳み込みフィルタとフラッドフィリング法を統合したトランスフォーマーの新しいスペーサー方式を提案する。我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。 New SPIONは、既存の最先端スパーストランスモデルよりも最大3.08倍のスピードアップを実現している。
論文参考訳（メタデータ） (2023-09-22T02:14:46Z)
Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。これらの機構の集約演算子に補正項を提示する。
論文参考訳（メタデータ） (2023-06-02T15:19:08Z)
Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文参考訳（メタデータ） (2022-03-15T06:52:25Z)
Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文参考訳（メタデータ） (2021-05-31T16:20:03Z)
Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文参考訳（メタデータ） (2021-05-29T05:26:07Z)
Rewiring the Transformer with Depth-Wise LSTMs [55.50278212605607]
カスケードトランスとサブ層を接続する奥行きLSTMを用いたトランスフォーマーを提案する。 6層トランスを用いた実験では、WMT 14英語/ドイツ語/フランス語タスクとOPUS-100多言語NMTタスクの両方でBLEUが大幅に改善された。
論文参考訳（メタデータ） (2020-07-13T09:19:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。