論文の概要: Invertible Attention
- arxiv url: http://arxiv.org/abs/2106.09003v1
- Date: Wed, 16 Jun 2021 17:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:19:47.547106
- Title: Invertible Attention
- Title(参考訳): 可逆的注意
- Authors: Jiajun Zha, Yiran Zhong, Jing Zhang, Liang Zheng, Richard Hartley
- Abstract要約: 既存の可逆モデルに接続可能な可逆的注意を提案する。
注意モデルの可逆性は、そのリプシッツ定数を慎重に拘束することで達成できることを示す。
また,我々の非可逆的注意は,高密度予測タスクにおける通常の非可逆的注意と比較して,同様の性能が得られることを示す。
- 参考スコア(独自算出の注目度): 34.614761208084666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention has been proved to be an efficient mechanism to capture long-range
dependencies. However, so far it has not been deployed in invertible networks.
This is due to the fact that in order to make a network invertible, every
component within the network needs to be a bijective transformation, but a
normal attention block is not. In this paper, we propose invertible attention
that can be plugged into existing invertible models. We mathematically and
experimentally prove that the invertibility of an attention model can be
achieved by carefully constraining its Lipschitz constant. We validate the
invertibility of our invertible attention on image reconstruction task with 3
popular datasets: CIFAR-10, SVHN, and CelebA. We also show that our invertible
attention achieves similar performance in comparison with normal non-invertible
attention on dense prediction tasks.
- Abstract(参考訳): 長距離の依存関係をキャプチャする効率的なメカニズムとして注目されている。
しかし、現時点では可逆ネットワークには展開されていない。
これは、ネットワークを可逆的にするためには、ネットワーク内のすべてのコンポーネントは単射変換が必要であるが、通常の注意ブロックはそうではないという事実による。
本稿では,既存の可逆モデルにプラグイン可能な可逆的注意を提案する。
数学的および実験的に、注意モデルの可逆性は、そのリプシッツ定数を慎重に拘束することで達成できることを示す。
我々は,CIFAR-10,SVHN,CelebAの3つの一般的なデータセットを用いて,画像再構成作業における可逆的注意の可逆性を検証する。
また,我々の非可逆的注意は,高密度予測タスクにおける通常の非可逆的注意と比較して,同様の性能が得られることを示す。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Is Sparse Attention more Interpretable? [52.85910570651047]
我々は,空間が注意力を説明可能性ツールとして活用する能力にどのように影響するかを検討する。
入力とインデックス付き中間表現の間には弱い関係しか存在しません。
この設定では、疎度を誘導することで、モデルの振る舞いを理解するためのツールとして注意が使用できることが、より確実になる可能性があることを観察する。
論文 参考訳(メタデータ) (2021-06-02T11:42:56Z) - KVT: k-NN Attention for Boosting Vision Transformers [44.189475770152185]
我々は、視力変換器の強化を目的とした、k-NNアテンションと呼ばれるスパースアテンション方式を提案する。
提案したk-NNアテンションは、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。
理論的にも経験的にも、$k$-NNの注意力は入力トークンからのノイズの蒸留やトレーニングの高速化に有効である。
論文 参考訳(メタデータ) (2021-05-28T06:49:10Z) - Attention is Not All You Need: Pure Attention Loses Rank Doubly
Exponentially with Depth [48.16156149749371]
この研究は、自己注意ネットワークを理解するための新しい方法を提案する。
それらの出力は、より小さな項の和に分解できることを示す。
我々は、自己意識が「トークン」に対して強い帰納的偏見を持っていることを証明している。
論文 参考訳(メタデータ) (2021-03-05T00:39:05Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - SE(3)-Transformers: 3D Roto-Translation Equivariant Attention Networks [71.55002934935473]
連続的な3次元ロト変換の下で同変である3次元点雲とグラフに対する自己アテンションモジュールの変種であるSE(3)-Transformerを導入する。
我々は, 入力の回転下での予測の頑健性を示す, おもちゃのN体粒子シミュレーションデータセットを用いて, モデルの評価を行った。
論文 参考訳(メタデータ) (2020-06-18T13:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。