論文の概要: Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as
an Alternative to Attention Layers in Transformers
- arxiv url: http://arxiv.org/abs/2311.10642v4
- Date: Sun, 4 Feb 2024 20:39:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 04:07:16.415596
- Title: Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as
an Alternative to Attention Layers in Transformers
- Title(参考訳): 注意を再考する - トランスフォーマーの注意層に代わる、浅層フィードフォワードニューラルネットワークの探索
- Authors: Vukasin Bozic, Danilo Dordevic, Daniele Coppola, Joseph Thommes, Sidak
Pal Singh
- Abstract要約: 本研究は,従来のトランスフォーマーモデルにおけるアテンション機構の動作を模倣するために,標準の浅層フィードフォワードネットワークを用いることの有効性について分析した。
我々はトランスフォーマーの注意機構の重要な要素を簡単なフィードフォワードネットワークで置き換え、知識蒸留により元のコンポーネントを用いて訓練する。
IWSLT 2017データセットで実施した実験では,これらの“アテンションレストランスフォーマー(attentionless Transformers)”の能力が,オリジナルのアーキテクチャのパフォーマンスに匹敵することを示した。
- 参考スコア(独自算出の注目度): 5.356051655680145
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This work presents an analysis of the effectiveness of using standard shallow
feed-forward networks to mimic the behavior of the attention mechanism in the
original Transformer model, a state-of-the-art architecture for
sequence-to-sequence tasks. We substitute key elements of the attention
mechanism in the Transformer with simple feed-forward networks, trained using
the original components via knowledge distillation. Our experiments, conducted
on the IWSLT2017 dataset, reveal the capacity of these "attentionless
Transformers" to rival the performance of the original architecture. Through
rigorous ablation studies, and experimenting with various replacement network
types and sizes, we offer insights that support the viability of our approach.
This not only sheds light on the adaptability of shallow feed-forward networks
in emulating attention mechanisms but also underscores their potential to
streamline complex architectures for sequence-to-sequence tasks.
- Abstract(参考訳): 本研究は,sequence-to-sequenceタスクのための最先端アーキテクチャであるオリジナルのtransformerモデルにおいて,アテンション機構の挙動を模倣するために,標準的な浅層フィードフォワードネットワークを用いた場合の有効性の分析を行う。
トランスの注意機構のキー要素を単純なフィードフォワードネットワークに置き換え, 知識蒸留により元の成分を用いて学習する。
IWSLT2017データセットで実施した実験では,これらの“アテンションレストランスフォーマー”の能力が,元のアーキテクチャのパフォーマンスに匹敵することを示した。
厳密なアブレーション研究と、様々な代替ネットワークタイプとサイズの実験を通じて、我々のアプローチの生存可能性を支える洞察を提供する。
これは、アテンション機構をエミュレートする上での浅いフィードフォワードネットワークの適応性に光を当てるだけでなく、シーケンスからシーケンスへのタスクの複雑なアーキテクチャを合理化する可能性にも光を当てている。
関連論文リスト
- Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - Convolutional Initialization for Data-Efficient Vision Transformers [38.63299194992718]
小さなデータセット上のビジョントランスフォーマーネットワークのトレーニングには課題がある。
CNNはアーキテクチャ上の帰納バイアスを利用して最先端のパフォーマンスを達成することができる。
我々のアプローチは、ランダムなインパルスフィルタがCNNの学習フィルタとほぼ同等の性能を達成できるという発見に動機づけられている。
論文 参考訳(メタデータ) (2024-01-23T06:03:16Z) - Classification of Home Network Problems with Transformers [0.0]
本稿では,ping, dig,ipといったネットワークツールの生のテキスト出力に基づいて,10の共通ホームネットワーク問題を識別できるモデルを提案する。
ディープラーニングモデルは、ツール出力をトークンシーケンスに分割するために、特定の事前トークン化器を備えたエンコーダのみのトランスフォーマーアーキテクチャを使用する。
本モデルでは,ホームネットワークにおけるトランスフォーマーに基づく問題分類の可能性を示すとともに,高い精度を実現する。
論文 参考訳(メタデータ) (2023-12-03T16:27:06Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Miti-DETR: Object Detection based on Transformers with Mitigatory
Self-Attention Convergence [17.854940064699985]
本稿では,緩和的自己認識機構を備えたトランスフォーマーアーキテクチャを提案する。
Miti-DETRは、各注意層の入力をそのレイヤの出力に予約し、「非注意」情報が注意伝播に関与するようにします。
Miti-DETRは、既存のDETRモデルに対する平均検出精度と収束速度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-12-26T03:23:59Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。