Fugu-MT 論文翻訳(概要): Are Neighbors Enough? Multi-Head Neural n-gram can be Alternative to Self-attention

論文の概要: Are Neighbors Enough? Multi-Head Neural n-gram can be Alternative to Self-attention

arxiv url: http://arxiv.org/abs/2207.13354v1
Date: Wed, 27 Jul 2022 08:20:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-28 13:22:42.760192
Title: Are Neighbors Enough? Multi-Head Neural n-gram can be Alternative to Self-attention
Title（参考訳）: 隣人は十分か? マルチヘッドニューラルn-gramは自己注意の代替となる
Authors: Mengsay Loem, Sho Takase, Masahiro Kaneko and Naoaki Okazaki
Abstract要約: Transformer の自己注意を Multi-head Neural $n$-gram に置き換えることで,Transformer よりも同等あるいは優れた性能が得られることを示す。提案手法の様々な解析から,マルチヘッドニューラル$n$-gramが自己注意に相補的であることがわかった。
参考スコア（独自算出の注目度）: 27.850970793739933
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Impressive performance of Transformer has been attributed to self-attention, where dependencies between entire input in a sequence are considered at every position. In this work, we reform the neural $n$-gram model, which focuses on only several surrounding representations of each position, with the multi-head mechanism as in Vaswani et al.(2017). Through experiments on sequence-to-sequence tasks, we show that replacing self-attention in Transformer with multi-head neural $n$-gram can achieve comparable or better performance than Transformer. From various analyses on our proposed method, we find that multi-head neural $n$-gram is complementary to self-attention, and their combinations can further improve performance of vanilla Transformer.
Abstract（参考訳）: トランスフォーマの印象的な性能は、シーケンス内の入力全体間の依存性が各位置に考慮される自己着脱に起因する。本研究では,各位置の周辺表現のみに焦点を当てたニューラル$n$-gramモデルを,vaswaniなどのマルチヘッド機構を用いて再構成する。 (2017). シーケンシャル・ツー・シーケンスタスクの実験により、Transformerの自己アテンションをマルチヘッドニューラルな$n$-gramに置き換えることで、Transformerよりも同等あるいは優れたパフォーマンスが得られることを示す。提案手法の様々な解析から,多頭部ニューラル$n$-gramは自己注意に相補的であり,それらの組み合わせによりバニラ変圧器の性能が向上することがわかった。

関連論文リスト

Spiking Transformer:Introducing Accurate Addition-Only Spiking Self-Attention for Transformer [15.93436166506258]
スパイキングニューラルネットワークは、従来のニューラルネットワークに代わる有望なエネルギー効率の代替として登場した。本稿では,A$2$OS$2$Aの精度付加型スパイク自己注意について紹介する。
論文参考訳（メタデータ） (2025-02-28T22:23:29Z)
Multiset Transformer: Advancing Representation Learning in Persistence Diagrams [11.512742322405906]
マルチセットトランスフォーマー(Multiset Transformer)は、マルチセットを入力として特別に設計されたアテンションメカニズムを利用するニューラルネットワークである。このアーキテクチャは、マルチセット強化された注意とプール分解スキームを統合し、同変層にまたがる多重性を維持できる。実験により、Multiset Transformerは、永続図表表現学習の領域において、既存のニューラルネットワーク手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-11-22T01:38:47Z)
Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
トランスフォーマーアーキテクチャにおけるMHSAの代替として,Fibottentionと呼ばれる新しいマルチヘッド自己アテンション(MHSA)モデルを提案する。フィボテンションはデータ効率が高く、標準的なMHSAよりも大量のトークンを処理するのに適している。拡張されたフィボナッチ配列に基づいて、構造化されたスパークアテンションを採用しており、ユニークなことに、アテンションヘッドによって異なる。
論文参考訳（メタデータ） (2024-06-27T17:59:40Z)
Sampled Transformer for Point Sets [80.66097006145999]
スパース変換器は、連続列列列関数の普遍近似器でありながら、自己アテンション層の計算複雑性を$O(n)$に下げることができる。我々は、追加の帰納バイアスを伴わずに点集合要素を直接処理できる$O(n)$複雑性サンプリング変換器を提案する。
論文参考訳（メタデータ） (2023-02-28T06:38:05Z)
Redesigning the Transformer Architecture with Insights from Multi-particle Dynamical Systems [32.86421107987556]
我々は,従来の微分方程式の数値解法として,ディープニューラルネットワークを解析する最近の発展の上に構築する。時間的進化計画であるTransEvolveを定式化し、複数の積層層にコストのかかるドット積の注意をバイパスする。我々は、よく知られたエンコーダデコーダとエンコーダのみのタスクでTransEvolveで徹底的な実験を行う。
論文参考訳（メタデータ） (2021-09-30T14:01:06Z)
UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation [6.646135062704341]
トランスフォーマーアーキテクチャは多くの自然言語処理タスクで成功している。医用画像セグメンテーションを強化するために,自己意識を畳み込みニューラルネットワークに統合する強力なハイブリッドトランスフォーマーアーキテクチャUTNetを提案する。
論文参考訳（メタデータ） (2021-07-02T00:56:27Z)
ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文参考訳（メタデータ） (2021-06-07T05:31:06Z)
Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文参考訳（メタデータ） (2021-05-29T05:26:07Z)
CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文参考訳（メタデータ） (2021-03-27T13:03:17Z)
IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文参考訳（メタデータ） (2021-03-05T03:44:42Z)
Multi-branch Attentive Transformer [152.07840447196384]
我々は,マルチブランチ・アテンティブ・トランスフォーマーと呼ばれる,シンプルで効果的なトランスフォーマーの変種を提案する。注目層は複数のブランチの平均であり、各ブランチは独立したマルチヘッド注意層である。機械翻訳、コード生成、自然言語理解の実験は、Transformerのこのような単純な変種が大きな改善をもたらすことを示した。
論文参考訳（メタデータ） (2020-06-18T04:24:28Z)
$O(n)$ Connections are Expressive Enough: Universal Approximability of Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文参考訳（メタデータ） (2020-06-08T18:30:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。