論文の概要: A Neural ODE Interpretation of Transformer Layers
- arxiv url: http://arxiv.org/abs/2212.06011v1
- Date: Mon, 12 Dec 2022 16:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:26:22.646260
- Title: A Neural ODE Interpretation of Transformer Layers
- Title(参考訳): 変圧器層のニューラルネットワークによる解釈
- Authors: Yaofeng Desmond Zhong and Tongtao Zhang and Amit Chakraborty and
Biswadip Dey
- Abstract要約: マルチヘッドアテンションとマルチレイヤパーセプトロン(MLP)レイヤの交互パターンを使用するトランスフォーマーレイヤは、さまざまな機械学習問題に対して効果的なツールを提供する。
我々は、この接続を構築し、トランス層の内部構造を変更することを提案する。
実験により, この簡単な修正により, 複数のタスクにおけるトランスフォーマーネットワークの性能が向上することが示された。
- 参考スコア(独自算出の注目度): 8.839601328192957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer layers, which use an alternating pattern of multi-head attention
and multi-layer perceptron (MLP) layers, provide an effective tool for a
variety of machine learning problems. As the transformer layers use residual
connections to avoid the problem of vanishing gradients, they can be viewed as
the numerical integration of a differential equation. In this extended
abstract, we build upon this connection and propose a modification of the
internal architecture of a transformer layer. The proposed model places the
multi-head attention sublayer and the MLP sublayer parallel to each other. Our
experiments show that this simple modification improves the performance of
transformer networks in multiple tasks. Moreover, for the image classification
task, we show that using neural ODE solvers with a sophisticated integration
scheme further improves performance.
- Abstract(参考訳): マルチヘッドアテンションとマルチレイヤパーセプトロン(MLP)レイヤの交互パターンを使用するトランスフォーマーレイヤは、さまざまな機械学習問題に対して効果的なツールを提供する。
変圧器層は勾配の解消の問題を避けるために残差接続を用いるため、微分方程式の数値積分と見なすことができる。
この拡張抽象化では、この接続の上に構築し、トランス層の内部構造を変更することを提案する。
提案モデルでは,マルチヘッドアテンションサブレイヤとMLPサブレイヤを並列に配置する。
この簡単な修正により,複数のタスクにおけるトランスフォーマーネットワークの性能が向上することを示す。
さらに,画像分類タスクにおいて,高度な統合スキームを持つニューラルodeソルバを用いることにより,さらに性能が向上することを示す。
関連論文リスト
- Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood
Filling [1.0128808054306186]
本稿では,畳み込みフィルタとフラッドフィリング法を統合したトランスフォーマーの新しいスペーサー方式を提案する。
我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。
New SPIONは、既存の最先端スパーストランスモデルよりも最大3.08倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-09-22T02:14:46Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Rewiring the Transformer with Depth-Wise LSTMs [55.50278212605607]
カスケードトランスとサブ層を接続する奥行きLSTMを用いたトランスフォーマーを提案する。
6層トランスを用いた実験では、WMT 14英語/ドイツ語/フランス語タスクとOPUS-100多言語NMTタスクの両方でBLEUが大幅に改善された。
論文 参考訳(メタデータ) (2020-07-13T09:19:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。