論文の概要: Making Heads or Tails: Towards Semantically Consistent Visual
Counterfactuals
- arxiv url: http://arxiv.org/abs/2203.12892v1
- Date: Thu, 24 Mar 2022 07:26:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 14:36:46.200275
- Title: Making Heads or Tails: Towards Semantically Consistent Visual
Counterfactuals
- Title(参考訳): 頭やタオルを作る: セマンティックに一貫性のある視覚的カウンターファクト
- Authors: Simon Vandenhende, Dhruv Mahajan, Filip Radenovic and Deepti
Ghadiyaram
- Abstract要約: 視覚的対物的説明は、クエリ画像内の画像領域を、イントラクタ画像から領域に置き換えて、変換された画像に対するシステムの判断がイントラクタクラスに変化するようにする。
本稿では2つの重要なアイデアに基づいて視覚的対実的説明を計算するための新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 31.375504774744268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A visual counterfactual explanation replaces image regions in a query image
with regions from a distractor image such that the system's decision on the
transformed image changes to the distractor class. In this work, we present a
novel framework for computing visual counterfactual explanations based on two
key ideas. First, we enforce that the \textit{replaced} and \textit{replacer}
regions contain the same semantic part, resulting in more semantically
consistent explanations. Second, we use multiple distractor images in a
computationally efficient way and obtain more discriminative explanations with
fewer region replacements. Our approach is $\mathbf{27\%}$ more semantically
consistent and an order of magnitude faster than a competing method on three
fine-grained image recognition datasets. We highlight the utility of our
counterfactuals over existing works through machine teaching experiments where
we teach humans to classify different bird species. We also complement our
explanations with the vocabulary of parts and attributes that contributed the
most to the system's decision. In this task as well, we obtain state-of-the-art
results when using our counterfactual explanations relative to existing works,
reinforcing the importance of semantically consistent explanations.
- Abstract(参考訳): 視覚的対物的説明は、クエリ画像内の画像領域をイントラクタ画像から領域に置き換え、変換された画像に対するシステムの判断がイントラクタクラスに変化する。
本研究では,2つの重要な概念に基づいて視覚的対実的説明を計算するための新しい枠組みを提案する。
まず、 \textit{replaced} と \textit{replacer} の領域は、同じ意味的部分を含み、より意味的に一貫した説明をもたらす。
第2に,複数の気晴らし画像を計算効率良く使用し,領域置換の少ないより識別的な説明を得る。
我々のアプローチは$\mathbf{27\%}$より意味論的に一貫性があり、3つのきめ細かい画像認識データセットの競合する手法よりも桁違いに高速である。
我々は、人間に異なる鳥種を分類するように教える機械教育実験を通じて、既存の研究に対するカウンターファクトトゥルムの有用性を強調した。
また、システムの決定に最も寄与した部分と属性の語彙で説明を補完する。
本課題では,既存の著作物に対する反事実的説明を用い,意味論的に一貫性のある説明の重要性を補強する。
関連論文リスト
- Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Composed Image Retrieval for Remote Sensing [24.107610091033997]
この研究は、合成画像検索をリモートセンシングに導入する。
テキスト記述で交互に画像例によって大きな画像アーカイブをクエリできる。
イメージ・ツー・イメージとテキスト・ツー・イメージの類似性を融合させる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T14:18:31Z) - Towards Image Semantics and Syntax Sequence Learning [8.033697392628424]
画像意味論」と「画像構文」からなる「画像文法」の概念を導入する。
視覚オブジェクト/シーンのクラスに対して画像文法を学習するための弱教師付き2段階アプローチを提案する。
私たちのフレームワークは、パッチセマンティクスを推論し、欠陥のある構文を検出するように訓練されています。
論文 参考訳(メタデータ) (2024-01-31T00:16:02Z) - Superpixel Semantics Representation and Pre-training for Vision-Language Task [11.029236633301222]
画像空間における粗い粒度のセマンティックな相互作用は無視するべきではない。
本稿では,スーパーピクセルを包括的で堅牢なビジュアルプリミティブとして提案する。
画像全体を細粒度で粗い視覚階層として解析することができる。
論文 参考訳(メタデータ) (2023-10-20T12:26:04Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Shrinking the Semantic Gap: Spatial Pooling of Local Moment Invariants
for Copy-Move Forgery Detection [7.460203098159187]
Copy-move forgeryは、特定のパッチをコピー&ペーストして画像に貼り付ける操作で、潜在的に違法または非倫理的使用がある。
コピー・ムーブ・フォージェリーの法医学的手法の進歩は,検出精度とロバスト性の向上に寄与している。
自己相似性が高い画像や強い信号の破損のある画像の場合、既存のアルゴリズムはしばしば非効率なプロセスと信頼性の低い結果を示す。
論文 参考訳(メタデータ) (2022-07-19T09:11:43Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Distributed Attention for Grounded Image Captioning [55.752968732796354]
弱教師付き接地画像キャプションの問題点について検討する。
目的は、画像の対応する領域に接する各名詞語で画像のコンテキストを記述する文を自動的に生成することである。
論文 参考訳(メタデータ) (2021-08-02T17:28:33Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z) - Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis [194.1452124186117]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
我々のECGANは最先端の手法よりもはるかに優れた結果が得られる。
論文 参考訳(メタデータ) (2020-03-31T01:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。