論文の概要: Causal Attention for Unbiased Visual Recognition
- arxiv url: http://arxiv.org/abs/2108.08782v1
- Date: Thu, 19 Aug 2021 16:45:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 15:41:07.609816
- Title: Causal Attention for Unbiased Visual Recognition
- Title(参考訳): 異常な視覚認知に対する因果注意
- Authors: Tan Wang, Chang Zhou, Qianru Sun, Hanwang Zhang
- Abstract要約: 注意モジュールは、どんなコンテキストにおいても堅牢な因果的特徴を深層モデルで学ぶのに役立つとは限らない。
本稿では,コーカサリ・アテンション・モジュール(CaaM)を提案する。
OOD設定では、CaaMによるディープモデルは、それなしではパフォーマンスが大幅に向上する。
- 参考スコア(独自算出の注目度): 76.87114090435618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention module does not always help deep models learn causal features that
are robust in any confounding context, e.g., a foreground object feature is
invariant to different backgrounds. This is because the confounders trick the
attention to capture spurious correlations that benefit the prediction when the
training and testing data are IID (identical & independent distribution); while
harm the prediction when the data are OOD (out-of-distribution). The sole
fundamental solution to learn causal attention is by causal intervention, which
requires additional annotations of the confounders, e.g., a "dog" model is
learned within "grass+dog" and "road+dog" respectively, so the "grass" and
"road" contexts will no longer confound the "dog" recognition. However, such
annotation is not only prohibitively expensive, but also inherently
problematic, as the confounders are elusive in nature. In this paper, we
propose a causal attention module (CaaM) that self-annotates the confounders in
unsupervised fashion. In particular, multiple CaaMs can be stacked and
integrated in conventional attention CNN and self-attention Vision Transformer.
In OOD settings, deep models with CaaM outperform those without it
significantly; even in IID settings, the attention localization is also
improved by CaaM, showing a great potential in applications that require robust
visual saliency. Codes are available at \url{https://github.com/Wangt-CN/CaaM}.
- Abstract(参考訳): アテンションモジュールは、例えば、フォアグラウンドオブジェクト機能は異なる背景に不変であるなど、どんなコンテキストでも堅牢な因果的特徴を深層モデルで学ぶのに役立つとは限らない。
これは、共同創設者たちが注意をそらして、トレーニングデータとテストデータがID(IDおよび独立分布)である場合の予測に利益をもたらす、突発的な相関を捉えているためである。
因果的注意を学ぶ唯一の基本的な解決策は因果的介入であり、例えば「グラス+ドッグ」と「ロード+ドッグ」でそれぞれ「ドッグ」モデルが学習されるため、「グラス」と「ロード」のコンテキストはもはや「ドッグ」認識を結合させない。
しかし、このような注釈は違法に高価であるだけでなく、本質的に問題でもある。
本稿では,共同創設者を教師なしの方法で自己注釈するcausal attention module(caam)を提案する。
特に、複数のcaamを積み重ねて、従来のアテンションcnnやセルフアテンションビジョントランスフォーマーに統合することができる。
OOD設定では、CaaMによるディープモデルはそれらを著しく上回る。ID設定においても、注意のローカライゼーションはCaaMによって改善され、堅牢な視覚的サリエンシを必要とするアプリケーションにおいて大きな可能性を示す。
コードは \url{https://github.com/wangt-cn/caam} で入手できる。
関連論文リスト
- Seeing Through VisualBERT: A Causal Adventure on Memetic Landscapes [35.36331164446824]
構造因果モデル(SCM)に基づくフレームワークを提案する。
このフレームワークでは、VisualBERTは、ミーム入力と因果概念の両方に基づいて、入力ミームのクラスを予測するように訓練されている。
入力属性法は我々のフレームワークの因果性を保証するものではないことが分かり、安全クリティカルなアプリケーションにおけるそれらの信頼性に関する疑問を提起する。
論文 参考訳(メタデータ) (2024-10-17T12:32:00Z) - When Attention Sink Emerges in Language Models: An Empirical View [39.36282162213973]
言語モデル(LM)は、意味的に重要でない場合でも、最初のトークンに注意を向ける。
この現象は、ストリーミング/ロングコンテキスト生成、KVキャッシュ最適化、推論アクセラレーション、モデル量子化などのアプリケーションで広く採用されている。
我々はまず、小さなモデルであっても様々な入力を持つLMにおいて、注意シンクが普遍的に存在することを実証した。
論文 参考訳(メタデータ) (2024-10-14T17:50:28Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Learning Target-aware Representation for Visual Tracking via Informative
Interactions [49.552877881662475]
トラッキングのための特徴表現のターゲット認識能力を改善するために,新しいバックボーンアーキテクチャを提案する。
提案したGIMモジュールとInBN機構は、CNNやTransformerなど、さまざまなバックボーンタイプに適用可能である。
論文 参考訳(メタデータ) (2022-01-07T16:22:27Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - Causal Attention for Vision-Language Tasks [142.82608295995652]
新しい注意機構:Causal Attention (CATT)について紹介する。
CATTは、既存の注目に基づく視覚言語モデルにおける絶え間ない欠点を除去する。
特に,CATTは大規模プレトレーニングにおいて大きな可能性を秘めている。
論文 参考訳(メタデータ) (2021-03-05T06:38:25Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。