論文の概要: Are Neighbors Enough? Multi-Head Neural n-gram can be Alternative to
Self-attention
- arxiv url: http://arxiv.org/abs/2207.13354v1
- Date: Wed, 27 Jul 2022 08:20:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:22:42.760192
- Title: Are Neighbors Enough? Multi-Head Neural n-gram can be Alternative to
Self-attention
- Title(参考訳): 隣人は十分か?
マルチヘッドニューラルn-gramは自己注意の代替となる
- Authors: Mengsay Loem, Sho Takase, Masahiro Kaneko and Naoaki Okazaki
- Abstract要約: Transformer の自己注意を Multi-head Neural $n$-gram に置き換えることで,Transformer よりも同等あるいは優れた性能が得られることを示す。
提案手法の様々な解析から,マルチヘッドニューラル$n$-gramが自己注意に相補的であることがわかった。
- 参考スコア(独自算出の注目度): 27.850970793739933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Impressive performance of Transformer has been attributed to self-attention,
where dependencies between entire input in a sequence are considered at every
position. In this work, we reform the neural $n$-gram model, which focuses on
only several surrounding representations of each position, with the multi-head
mechanism as in Vaswani et al.(2017). Through experiments on
sequence-to-sequence tasks, we show that replacing self-attention in
Transformer with multi-head neural $n$-gram can achieve comparable or better
performance than Transformer. From various analyses on our proposed method, we
find that multi-head neural $n$-gram is complementary to self-attention, and
their combinations can further improve performance of vanilla Transformer.
- Abstract(参考訳): トランスフォーマの印象的な性能は、シーケンス内の入力全体間の依存性が各位置に考慮される自己着脱に起因する。
本研究では,各位置の周辺表現のみに焦点を当てたニューラル$n$-gramモデルを,vaswaniなどのマルチヘッド機構を用いて再構成する。
(2017).
シーケンシャル・ツー・シーケンスタスクの実験により、Transformerの自己アテンションをマルチヘッドニューラルな$n$-gramに置き換えることで、Transformerよりも同等あるいは優れたパフォーマンスが得られることを示す。
提案手法の様々な解析から,多頭部ニューラル$n$-gramは自己注意に相補的であり,それらの組み合わせによりバニラ変圧器の性能が向上することがわかった。
関連論文リスト
- Multiset Transformer: Advancing Representation Learning in Persistence Diagrams [11.512742322405906]
マルチセットトランスフォーマー(Multiset Transformer)は、マルチセットを入力として特別に設計されたアテンションメカニズムを利用するニューラルネットワークである。
このアーキテクチャは、マルチセット強化された注意とプール分解スキームを統合し、同変層にまたがる多重性を維持できる。
実験により、Multiset Transformerは、永続図表表現学習の領域において、既存のニューラルネットワーク手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-22T01:38:47Z) - Sampled Transformer for Point Sets [80.66097006145999]
スパース変換器は、連続列列列関数の普遍近似器でありながら、自己アテンション層の計算複雑性を$O(n)$に下げることができる。
我々は、追加の帰納バイアスを伴わずに点集合要素を直接処理できる$O(n)$複雑性サンプリング変換器を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:38:05Z) - Redesigning the Transformer Architecture with Insights from
Multi-particle Dynamical Systems [32.86421107987556]
我々は,従来の微分方程式の数値解法として,ディープニューラルネットワークを解析する最近の発展の上に構築する。
時間的進化計画であるTransEvolveを定式化し、複数の積層層にコストのかかるドット積の注意をバイパスする。
我々は、よく知られたエンコーダデコーダとエンコーダのみのタスクでTransEvolveで徹底的な実験を行う。
論文 参考訳(メタデータ) (2021-09-30T14:01:06Z) - UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation [6.646135062704341]
トランスフォーマーアーキテクチャは多くの自然言語処理タスクで成功している。
医用画像セグメンテーションを強化するために,自己意識を畳み込みニューラルネットワークに統合する強力なハイブリッドトランスフォーマーアーキテクチャUTNetを提案する。
論文 参考訳(メタデータ) (2021-07-02T00:56:27Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z) - Multi-branch Attentive Transformer [152.07840447196384]
我々は,マルチブランチ・アテンティブ・トランスフォーマーと呼ばれる,シンプルで効果的なトランスフォーマーの変種を提案する。
注目層は複数のブランチの平均であり、各ブランチは独立したマルチヘッド注意層である。
機械翻訳、コード生成、自然言語理解の実験は、Transformerのこのような単純な変種が大きな改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-06-18T04:24:28Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。