論文の概要: Counterfactual Reasoning for Multi-Label Image Classification via Patching-Based Training
- arxiv url: http://arxiv.org/abs/2404.06287v1
- Date: Tue, 9 Apr 2024 13:13:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 14:40:35.195402
- Title: Counterfactual Reasoning for Multi-Label Image Classification via Patching-Based Training
- Title(参考訳): パッチベーストレーニングによるマルチラベル画像分類のファクトファクト推論
- Authors: Ming-Kun Xie, Jia-Hao Xiao, Pei Peng, Gang Niu, Masashi Sugiyama, Sheng-Jun Huang,
- Abstract要約: 共起関係の過度な強調は、モデルの過度な問題を引き起こす可能性がある。
本稿では,対象対象物とその共起対象物による相関特性を媒介者とみなすことができることを示す因果推論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 84.95281245784348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The key to multi-label image classification (MLC) is to improve model performance by leveraging label correlations. Unfortunately, it has been shown that overemphasizing co-occurrence relationships can cause the overfitting issue of the model, ultimately leading to performance degradation. In this paper, we provide a causal inference framework to show that the correlative features caused by the target object and its co-occurring objects can be regarded as a mediator, which has both positive and negative impacts on model predictions. On the positive side, the mediator enhances the recognition performance of the model by capturing co-occurrence relationships; on the negative side, it has the harmful causal effect that causes the model to make an incorrect prediction for the target object, even when only co-occurring objects are present in an image. To address this problem, we propose a counterfactual reasoning method to measure the total direct effect, achieved by enhancing the direct effect caused only by the target object. Due to the unknown location of the target object, we propose patching-based training and inference to accomplish this goal, which divides an image into multiple patches and identifies the pivot patch that contains the target object. Experimental results on multiple benchmark datasets with diverse configurations validate that the proposed method can achieve state-of-the-art performance.
- Abstract(参考訳): マルチラベル画像分類(MLC)の鍵は,ラベル相関を利用してモデル性能を向上させることである。
残念なことに、共起関係の過度な強調はモデルの過度な適合問題を招き、最終的に性能低下につながることが示されている。
本稿では,対象物とその共起物による相関特性を媒介者とみなすことができ,モデル予測に肯定的かつ否定的な影響を与えることを示す因果推論フレームワークを提案する。
正の面では、メディエータは共起関係を捉えてモデルの認識性能を高め、負の面では、画像中に共起対象のみが存在する場合でも、モデルが対象対象に対して誤った予測をさせる有害な因果効果を有する。
この問題に対処するために,対象対象物のみによる直接効果を高めることで達成した,全直接効果を測定するための反実的推論手法を提案する。
対象オブジェクトの位置が不明なため、この目標を達成するためにパッチベースのトレーニングと推論を提案し、画像を複数のパッチに分割し、対象オブジェクトを含むピボットパッチを特定する。
多様な構成を持つ複数のベンチマークデータセットの実験結果から,提案手法が最先端の性能を達成できることが確認された。
関連論文リスト
- Stanceformer: Target-Aware Transformer for Stance Detection [59.69858080492586]
スタンス検出は、テキストで表現されたスタンスを特定の主題やターゲットに向けて識別する。
以前の作業は、ターゲットを効果的に優先順位付けする能力に欠ける既存のトランスフォーマーモデルに依存していた。
本稿では,学習と推論の両方において,目標に対する注意を高めるターゲット対応トランスフォーマーモデルであるStanceformerを紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:24:28Z) - Mutually-Aware Feature Learning for Few-Shot Object Counting [20.623402944601775]
追加のトレーニングを必要とせずに、与えられた例に基づいてクエリイメージに対象オブジェクトをカウントすることを目的としている。
本稿では,質問文と模範的特徴を相互に認識する,MAFEA(Mutually-Aware FEAture Learning)という新しいフレームワークを提案する。
本モデルでは, FSCD-LVIS と FSC-147 の2つのベンチマークにおいて, 目標混乱の程度を著しく低減し, 新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-19T06:46:24Z) - COT: A Generative Approach for Hate Speech Counter-Narratives via Contrastive Optimal Transport [25.73474734479759]
本研究では, コントラッシブ・最適輸送に基づく新しい枠組みを提案する。
ターゲットインタラクションの維持と、反ナラティブの生成における多様化の促進という課題を効果的に解決する。
提案手法は,複数の側面から評価された現在の手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-18T06:24:26Z) - Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Counterfactual Image Generation for adversarially robust and
interpretable Classifiers [1.3859669037499769]
本稿では,GAN(Generative Adrial Networks)を基盤として,画像から画像への変換を利用した統合フレームワークを提案する。
これは、分類器と識別器を1つのモデルに組み合わせて、実際の画像をそれぞれのクラスに属性付け、生成されたイメージを「フェイク」として生成することで達成される。
モデルが敵攻撃に対するロバスト性の向上を示すことを示すとともに,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。
論文 参考訳(メタデータ) (2023-10-01T18:50:29Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - Instance-Level Relative Saliency Ranking with Graph Reasoning [126.09138829920627]
そこで本研究では,有意な事例を分割し,相対的有意な有意なランク順序を推定するための統一モデルを提案する。
また、サラレンシーランキングブランチを効果的にトレーニングするために、新しい損失関数も提案されている。
実験の結果,提案手法は従来の手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2021-07-08T13:10:42Z) - Attentional Prototype Inference for Few-Shot Segmentation [128.45753577331422]
数発のセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。
我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。
我々は4つのベンチマークで広範な実験を行い、提案手法は最先端のプロトタイプベースの手法よりも、少なくとも競争力があり、しばしば優れた性能が得られる。
論文 参考訳(メタデータ) (2021-05-14T06:58:44Z) - GAP++: Learning to generate target-conditioned adversarial examples [28.894143619182426]
逆の例は摂動入力であり、機械学習モデルに深刻な脅威をもたらす可能性がある。
本稿では、入力画像とターゲットラベルの両方に依存する目標条件の摂動を推論する、より汎用的なフレームワークを提案する。
本手法は,単一目標攻撃モデルで優れた性能を達成し,摂動ノルムを小さくして高い騙し率を得る。
論文 参考訳(メタデータ) (2020-06-09T07:49:49Z) - Adaptive Object Detection with Dual Multi-Label Prediction [78.69064917947624]
本稿では,適応オブジェクト検出のための新しいエンド・ツー・エンドの非教師付き深部ドメイン適応モデルを提案する。
モデルはマルチラベル予測を利用して、各画像内の対象カテゴリ情報を明らかにする。
本稿では,オブジェクト検出を支援するための予測整合正則化機構を提案する。
論文 参考訳(メタデータ) (2020-03-29T04:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。