論文の概要: Centroid Transformers: Learning to Abstract with Attention
- arxiv url: http://arxiv.org/abs/2102.08606v1
- Date: Wed, 17 Feb 2021 07:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 14:48:20.872870
- Title: Centroid Transformers: Learning to Abstract with Attention
- Title(参考訳): Centroid Transformers: 注意で抽象化を学ぶ
- Authors: Lemeng Wu, Xingchao Liu, Qiang Liu
- Abstract要約: 自己注意は入力から特徴を抽出する強力なメカニズムである。
N入力をM出力にマップする自己注意の一般化であるセントロイド注意を$(Mleq N)$に提案する。
本手法は,抽象的テキスト要約,3次元視覚,画像処理など,様々なアプリケーションに適用する。
- 参考スコア(独自算出の注目度): 15.506293166377182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention, as the key block of transformers, is a powerful mechanism for
extracting features from the inputs. In essence, what self-attention does to
infer the pairwise relations between the elements of the inputs, and modify the
inputs by propagating information between input pairs. As a result, it maps
inputs to N outputs and casts a quadratic $O(N^2)$ memory and time complexity.
We propose centroid attention, a generalization of self-attention that maps N
inputs to M outputs $(M\leq N)$, such that the key information in the inputs
are summarized in the smaller number of outputs (called centroids). We design
centroid attention by amortizing the gradient descent update rule of a
clustering objective function on the inputs, which reveals an underlying
connection between attention and clustering. By compressing the inputs to the
centroids, we extract the key information useful for prediction and also reduce
the computation of the attention module and the subsequent layers. We apply our
method to various applications, including abstractive text summarization, 3D
vision, and image processing. Empirical results demonstrate the effectiveness
of our method over the standard transformers.
- Abstract(参考訳): トランスフォーマーのキーブロックとしてのセルフアテンションは、入力から特徴を抽出する強力なメカニズムである。
本質的には、入力の要素間のペアワイズ関係を推測し、入力ペア間の情報を伝達することによって入力を修正するために自己注意が行うもの。
その結果、入力を N 出力にマップし、二次 $O(N^2)$ メモリと時間の複雑さをキャストします。
我々は、N の入力を M にマッピングする自己注意の一般化である centroid attention を提案し、入力のキー情報がより少ない出力(centroids と呼ばれる)で要約されるように$(M\leq N)$ を出力する。
本研究では,入力に対するクラスタリング目的関数の勾配降下更新ルールを償却することにより,注意とクラスタリングの基盤となる関係を明らかにする。
入力をセンタロイドに圧縮することにより,予測に有用な鍵情報を抽出するとともに,アテンションモジュールとそれに続くレイヤの計算量を削減する。
本手法は,抽象的テキスト要約,3次元視覚,画像処理など,様々なアプリケーションに適用する。
実験の結果, 標準変圧器に対する提案手法の有効性が実証された。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z) - Rotate to Attend: Convolutional Triplet Attention Module [21.228370317693244]
3分岐構造を用いた新しい注意重み計算法である三重項注意法を提案する。
本手法は単純かつ効率的であり,アドオンモジュールとして従来のバックボーンネットワークに簡単に接続できる。
ImageNet-1k上の画像分類や,MSCOCOおよびPASCAL VOCデータセット上でのオブジェクト検出など,様々な課題に対する本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-10-06T21:31:00Z) - Quantifying Attention Flow in Transformers [12.197250533100283]
自己注意(self-attention)"は、出席した埋め込みからの情報を次の層への焦点埋め込みの表現に結合する。
これにより、説明プローブとして注意重みが信頼できない。
本稿では,注目重み,注目ロールアウト,注目フローを付加した入力トークンへの注意を近似する2つの手法を提案する。
論文 参考訳(メタデータ) (2020-05-02T21:45:27Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z) - FAIRS -- Soft Focus Generator and Attention for Robust Object
Segmentation from Extreme Points [70.65563691392987]
本稿では,ユーザ入力からオブジェクトのセグメンテーションを極端点と補正クリックの形で生成する手法を提案する。
提案手法は,エクストリームポイント,クリック誘導,修正クリックを原則として組み込んだ,高品質なトレーニングデータを生成する能力とスケーラビリティを実証する。
論文 参考訳(メタデータ) (2020-04-04T22:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。