論文の概要: Locally Enhanced Self-Attention: Rethinking Self-Attention as Local and
Context Terms
- arxiv url: http://arxiv.org/abs/2107.05637v1
- Date: Mon, 12 Jul 2021 18:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:44:31.326725
- Title: Locally Enhanced Self-Attention: Rethinking Self-Attention as Local and
Context Terms
- Title(参考訳): 局所的に強化されたセルフ・アテンション:ローカルとコンテキストの用語としての自己アテンションの再検討
- Authors: Chenglin Yang, Siyuan Qiao, Adam Kortylewski, Alan Yuille
- Abstract要約: 自己認識はコンピュータビジョンモデルで広く使われている。
本稿では,局所強化自己意識(LESA)を提案する。
ImageNetとCOCOの結果は、画像認識、オブジェクト検出、インスタンスセグメンテーションのタスクにおいて、畳み込みや自己注意ベースラインよりもLESAの方が優れていることを示している。
- 参考スコア(独自算出の注目度): 18.857745441710076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Attention has become prevalent in computer vision models. Inspired by
fully connected Conditional Random Fields (CRFs), we decompose it into local
and context terms. They correspond to the unary and binary terms in CRF and are
implemented by attention mechanisms with projection matrices. We observe that
the unary terms only make small contributions to the outputs, and meanwhile
standard CNNs that rely solely on the unary terms achieve great performances on
a variety of tasks. Therefore, we propose Locally Enhanced Self-Attention
(LESA), which enhances the unary term by incorporating it with convolutions,
and utilizes a fusion module to dynamically couple the unary and binary
operations. In our experiments, we replace the self-attention modules with
LESA. The results on ImageNet and COCO show the superiority of LESA over
convolution and self-attention baselines for the tasks of image recognition,
object detection, and instance segmentation. The code is made publicly
available.
- Abstract(参考訳): 自己認識はコンピュータビジョンモデルで広く使われている。
完全に連結された条件ランダム場(CRF)に着想を得て、局所的および文脈的に分解する。
これらはCRFの単項および二項項に対応し、射影行列を持つ注意機構によって実装される。
我々は、ユニリー項はアウトプットに対して小さな貢献しかせず、一方、ユニリー項のみに依存する標準的なcnnは様々なタスクで素晴らしいパフォーマンスを達成していると観察する。
そこで本研究では,畳み込みを組み込むことでユニタリ項を強化し,ユナリ演算とバイナリ演算を動的に結合する,局所的拡張セルフアテンション(lesa)を提案する。
実験では,自己注意モジュールをLESAに置き換えた。
imagenet と coco の結果は,画像認識,オブジェクト検出,インスタンスセグメンテーションといったタスクにおいて,畳み込みや自己アテンションベースラインよりも lesa の方が優れていることを示している。
コードは公開されています。
関連論文リスト
- Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - CoC-GAN: Employing Context Cluster for Unveiling a New Pathway in Image
Generation [12.211795836214112]
本稿では,画像から一組の点雲へ変換する観点から,ユニークな画像生成プロセスを提案する。
我々の手法は、コンテキストクラスタリング(CoC)と呼ばれる単純なクラスタリング手法を利用して、順序のない点集合から画像を生成する。
我々は,このモデルをコンテキストクラスタリング生成適応ネットワーク(CoC-GAN)として導入する。
論文 参考訳(メタデータ) (2023-08-23T01:19:58Z) - Self-Attention Based Generative Adversarial Networks For Unsupervised
Video Summarization [78.2700757742992]
我々は、GAN(Generative Adversarial Network)をトレーニングして、代表要約を作成する人気手法を構築した。
本稿では,フレーム選択のための自己認識機構と,符号化と復号のためのLSTMを組み合わせたSUM-GAN-AEDモデルを提案する。
論文 参考訳(メタデータ) (2023-07-16T19:56:13Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Self-Attention for Audio Super-Resolution [0.0]
畳み込みと自己認識を組み合わせた超高解像度オーディオのためのネットワークアーキテクチャを提案する。
Attention-based Feature-Wise Linear Modulation (AFiLM) は、畳み込みモデルの活性化を変調するために、リカレントニューラルネットワークの代わりに自己アテンションメカニズムを使用する。
論文 参考訳(メタデータ) (2021-08-26T08:05:07Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Learning to Recognize Actions on Objects in Egocentric Video with
Attention Dictionaries [51.48859591280838]
ビデオアクション認識のためのディープニューラルアーキテクチャであるEgoACOを紹介する。
フレームレベルの機能からアクションコンテキストオブジェクト記述子をプールする。
Capは学習可能な重みの辞書を使って、最も関連性の高い特徴領域からプールする。
論文 参考訳(メタデータ) (2021-02-16T10:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。