論文の概要: DARTFormer: Finding The Best Type Of Attention
- arxiv url: http://arxiv.org/abs/2210.00641v1
- Date: Sun, 2 Oct 2022 21:56:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 16:26:50.298850
- Title: DARTFormer: Finding The Best Type Of Attention
- Title(参考訳): DARTFormer:最高の注意力を見つける
- Authors: Jason Ross Brown, Yiren Zhao, Ilia Shumailov, Robert D Mullins
- Abstract要約: DARTSのようなニューラルアーキテクチャサーチ(NAS)手法を提案する。
次に、フレームワークを拡張して、複数の異なる注意タイプでTransformerを検索し、ビルドし、それらを異種Transformerと呼びます。
- 参考スコア(独自算出の注目度): 9.252523881586054
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Given the wide and ever growing range of different efficient Transformer
attention mechanisms, it is important to identify which attention is most
effective when given a task. In this work, we are also interested in combining
different attention types to build heterogeneous Transformers. We first propose
a DARTS-like Neural Architecture Search (NAS) method to find the best attention
for a given task, in this setup, all heads use the same attention (homogeneous
models). Our results suggest that NAS is highly effective on this task, and it
identifies the best attention mechanisms for IMDb byte level text
classification and Listops. We then extend our framework to search for and
build Transformers with multiple different attention types, and call them
heterogeneous Transformers. We show that whilst these heterogeneous
Transformers are better than the average homogeneous models, they cannot
outperform the best. We explore the reasons why heterogeneous attention makes
sense, and why it ultimately fails.
- Abstract(参考訳): 様々な効率的なトランスフォーマーアテンション機構が広範に広まっており、タスクを与えられたときにどのアテンションが最も効果的かを特定することが重要である。
本研究では,異種トランスフォーマーを構築するために,異なるアテンションタイプを組み合わせることにも興味がある。
DARTSのようなニューラルアーキテクチャサーチ(NAS)手法を最初に提案し、与えられたタスクに最適な注意を向け、この設定では、すべてのヘッドが同じ注意(均一モデル)を使用する。
この課題に対してNASは極めて有効であることが示唆され,IMDbバイトレベルのテキスト分類とListopsの最適注意機構を同定した。
次に、複数の異なるアテンションタイプを持つトランスフォーマーを検索し構築するためのフレームワークを拡張し、異種トランスフォーマーと呼ぶ。
これらの異種変圧器は, 平均等質モデルよりは優れているが, ベストを上回ることは出来ない。
我々は、異種注意が理に適っている理由と、それが最終的に失敗する理由を考察する。
関連論文リスト
- Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles [65.54857068975068]
本稿では、この追加のバルクは不要であると論じる。
強いビジュアル・プレテキスト・タスク(MAE)で事前トレーニングを行うことで、最先端の多段階視覚変換器から全てのベル・アンド・ウィストルを除去することができる。
Hieraは、非常に単純な階層型視覚変換器で、従来のモデルよりも正確です。
論文 参考訳(メタデータ) (2023-06-01T17:59:58Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - Wide Attention Is The Way Forward For Transformers [9.252523881586054]
幅広い単一層トランスフォーマーモデルでは,自然言語処理(NLP)タスクにおいて,より深い処理と競合したり,より優れたりすることを示す。
以上の結果から,NLP用トランスフォーマーの開発において重要な方向は幅であり,深度はそれほど重要でないことが示唆された。
論文 参考訳(メタデータ) (2022-10-02T21:49:54Z) - Multi-manifold Attention for Vision Transformers [12.862540139118073]
ビジョントランスフォーマーは、いくつかのコンピュータビジョンタスクにおける最先端の性能のために、今日では非常に人気がある。
本研究では, 変圧器のバニラ自己注意の代替として, マルチマニフォールドマルチヘッドアテンションと呼ばれる新しいアテンション機構を提案する。
論文 参考訳(メタデータ) (2022-07-18T12:53:53Z) - Multiformer: A Head-Configurable Transformer-Based Model for Direct
Speech Translation [0.0]
MultiformerはTransformerベースのモデルであり、各ヘッドに異なるアテンションメカニズムを使用することができる。
これを行うことで、モデルはより多様なトークン相互作用の抽出に自己注意を偏らせることができる。
その結果、異なる頭部と層に沿った注意パターンの混合は、我々の基準線を最大0.7BLEUで上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-14T17:37:47Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - Generic Attention-model Explainability for Interpreting Bi-Modal and
Encoder-Decoder Transformers [78.26411729589526]
トランスフォーマーアーキテクチャによる予測を説明する最初の方法を提案する。
本手法は,一様説明性に適応した既存手法よりも優れている。
論文 参考訳(メタデータ) (2021-03-29T15:03:11Z) - TransCenter: Transformers with Dense Queries for Multiple-Object
Tracking [87.75122600164167]
私たちは、標準表現(バウンディングボックス)は、マルチオブジェクトトラッキングのためのトランスフォーマー学習に適応していないと主張している。
複数のターゲットの中心を追跡するトランスフォーマーベースのアーキテクチャであるTransCenterを提案する。
論文 参考訳(メタデータ) (2021-03-28T14:49:36Z) - TransFG: A Transformer Architecture for Fine-grained Recognition [27.76159820385425]
近年,視覚変換器 (ViT) は従来の分類課題において高い性能を示した。
我々は、トランスの生の注意重みをすべて注意マップに統合する新しいトランスベースのフレームワークTransFGを提案します。
類似サブクラスの特徴表現間の距離をさらに拡大するために、コントラスト損失が適用される。
論文 参考訳(メタデータ) (2021-03-14T17:03:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。