論文の概要: Implicit Kernel Attention
- arxiv url: http://arxiv.org/abs/2006.06147v3
- Date: Mon, 1 Mar 2021 08:57:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 09:44:25.370603
- Title: Implicit Kernel Attention
- Title(参考訳): 暗黙のカーネル注意
- Authors: Kyungwoo Song, Yohan Jung, Dongjun Kim, Il-Chul Moon
- Abstract要約: 本稿では,Transformer と GAT における注目の新たな解釈と一般化構造を提案する。
Transformer と GAT の注目点として,1) RBF カーネルが 2 つのインスタンスの類似性を計測し,2) 個々のインスタンスの重要性を計算するために$L2$ ノルムの指数関数を導出する。
- 参考スコア(独自算出の注目度): 24.908078310033577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: \textit{Attention} computes the dependency between representations, and it
encourages the model to focus on the important selective features.
Attention-based models, such as Transformer and graph attention network (GAT),
are widely utilized for sequential data and graph-structured data. This paper
suggests a new interpretation and generalized structure of the attention in
Transformer and GAT. For the attention in Transformer and GAT, we derive that
the attention is a product of two parts: 1) the RBF kernel to measure the
similarity of two instances and 2) the exponential of $L^{2}$ norm to compute
the importance of individual instances. From this decomposition, we generalize
the attention in three ways. First, we propose implicit kernel attention with
an implicit kernel function instead of manual kernel selection. Second, we
generalize $L^{2}$ norm as the $L^{p}$ norm. Third, we extend our attention to
structured multi-head attention. Our generalized attention shows better
performance on classification, translation, and regression tasks.
- Abstract(参考訳): \textit{Attention} は表現間の依存関係を計算し、重要な選択機能にフォーカスするようモデルに促す。
トランスフォーマやグラフアテンションネットワーク(gat)などのアテンションベースモデルがシーケンシャルデータやグラフ構造化データに広く利用されている。
本稿では,Transformer と GAT における注目の新たな解釈と一般化構造を提案する。
Transformer と GAT の注目点については、注意が2つの部分の積であることから導かれる。
1)RBFカーネルは2つのインスタンスの類似性を測定する。
2) 個々のインスタンスの重要性を計算するための$L^{2}$ normの指数関数。
この分解から注意を3つの方法で一般化する。
まず,手動のカーネル選択ではなく,暗黙のカーネル機能による暗黙のカーネル注意を提案する。
次に、$L^{2}$ normを$L^{p}$ normとして一般化する。
第3に,マルチヘッドの構造化に注意を向ける。
一般的な注意は,分類,翻訳,回帰タスクにおいて優れた性能を示す。
関連論文リスト
- GvT: A Graph-based Vision Transformer with Talking-Heads Utilizing Sparsity, Trained from Scratch on Small Datasets [1.1586742546971471]
グラフ畳み込みプロジェクションとグラフプーリングを利用するグラフベースビジョントランス (GvT) を提案する。
GvTは、大規模なデータセットを事前トレーニングすることなく、深層畳み込みネットワークに匹敵する、あるいは優れた結果をもたらす。
論文 参考訳(メタデータ) (2024-04-07T11:48:07Z) - Faster Neighborhood Attention: Reducing the O(n^2) Cost of Self Attention at the Threadblock Level [30.681204292813998]
近隣の注意は、それぞれのトークンの注意を隣人に限定することで、自己注意のコストを減少させる。
我々は,近隣の注意を,標準的な注意と同様のバッチGEMM問題として表すことができることを示した。
我々は、異なる空間軸をまたいだ注意をきめ細かく制御できる、融合したドット積アテンションカーネルを適応した、融合した近隣アテンションを開発する。
論文 参考訳(メタデータ) (2024-03-07T17:35:58Z) - Spectrally Transformed Kernel Regression [44.77783584303742]
この研究はスペクトル変換されたカーネル回帰(STKR)という古典的な考え方を再考する。
我々はSTKRが「ターゲットの滑らかさ」の普遍型を特徴付けることによって、原則的で一般的なアプローチであることを示している。
我々は、既知のカーネル変換を持つSTKRと、その変換が未知のPCAを持つSTKRの2つのシナリオに対する統計的保証を導出する。
論文 参考訳(メタデータ) (2024-02-01T15:07:31Z) - Gramformer: Learning Crowd Counting via Graph-Modulated Transformer [68.26599222077466]
Gramformerはグラフ変調変換器で、それぞれ注意点と入力ノードの特徴を調整してネットワークを強化する。
ノードの集中位置や重要性を発見するために,特徴に基づく符号化を提案する。
提案手法の競争性を検証した4つの挑戦的群集カウントデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-01-08T13:01:54Z) - ParCNetV2: Oversized Kernel with Enhanced Attention [60.141606180434195]
我々はParCNetV2という畳み込みニューラルネットワークアーキテクチャを導入する。
位置認識型円形畳み込み(ParCNet)を拡張し、大きめの畳み込みを施し、分岐ゲートユニットを通して注意を向ける。
提案手法は、CNNとトランスフォーマーをハイブリッド化するニューラルネットワークと同様に、他の純粋な畳み込みニューラルネットワークよりも優れている。
論文 参考訳(メタデータ) (2022-11-14T07:22:55Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - Graph Kernel Neural Networks [53.91024360329517]
本稿では、グラフ上の内部積を計算するカーネル関数であるグラフカーネルを用いて、標準畳み込み演算子をグラフ領域に拡張することを提案する。
これにより、入力グラフの埋め込みを計算する必要のない完全に構造的なモデルを定義することができる。
私たちのアーキテクチャでは,任意の種類のグラフカーネルをプラグインすることが可能です。
論文 参考訳(メタデータ) (2021-12-14T14:48:08Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - A Hierarchical Transitive-Aligned Graph Kernel for Un-attributed Graphs [11.51839867040302]
我々は、グラフ間の頂点を推移的に整列させることにより、新しいグラフカーネル、すなわち階層的推移型カーネルを開発する。
提案したカーネルは、分類精度の観点から、標準グラフベースのデータセット上で最先端のグラフカーネルより優れている。
論文 参考訳(メタデータ) (2020-02-08T11:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。