論文の概要: Multi-Rationale Explainable Object Recognition via Contrastive Conditional Inference
- arxiv url: http://arxiv.org/abs/2508.14280v1
- Date: Tue, 19 Aug 2025 21:28:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.277778
- Title: Multi-Rationale Explainable Object Recognition via Contrastive Conditional Inference
- Title(参考訳): コントラスト的条件推論による多段階説明可能な物体認識
- Authors: Ali Rasekh, Sepehr Kazemi Ranjbar, Simon Gottschalk,
- Abstract要約: 本稿では,各画像に複数の接頭辞を付加したデータセットを含む多段階的説明可能なオブジェクト認識ベンチマークを提案する。
本稿では,画像埋め込み,カテゴリラベル,合理性間の確率的関係を明示的にモデル化するコントラスト的条件推論フレームワークを提案する。
提案手法は, 高速ゼロショット性能を含む多段階的説明可能なオブジェクト認識ベンチマークにおいて, 最先端の結果を達成している。
- 参考スコア(独自算出の注目度): 1.2309843977641421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainable object recognition using vision-language models such as CLIP involves predicting accurate category labels supported by rationales that justify the decision-making process. Existing methods typically rely on prompt-based conditioning, which suffers from limitations in CLIP's text encoder and provides weak conditioning on explanatory structures. Additionally, prior datasets are often restricted to single, and frequently noisy, rationales that fail to capture the full diversity of discriminative image features. In this work, we introduce a multi-rationale explainable object recognition benchmark comprising datasets in which each image is annotated with multiple ground-truth rationales, along with evaluation metrics designed to offer a more comprehensive representation of the task. To overcome the limitations of previous approaches, we propose a contrastive conditional inference (CCI) framework that explicitly models the probabilistic relationships among image embeddings, category labels, and rationales. Without requiring any training, our framework enables more effective conditioning on rationales to predict accurate object categories. Our approach achieves state-of-the-art results on the multi-rationale explainable object recognition benchmark, including strong zero-shot performance, and sets a new standard for both classification accuracy and rationale quality. Together with the benchmark, this work provides a more complete framework for evaluating future models in explainable object recognition. The code will be made available online.
- Abstract(参考訳): CLIPのような視覚言語モデルを用いた説明可能なオブジェクト認識では、意思決定過程を正当化する理性によってサポートされている正確なカテゴリラベルを予測する。
既存のメソッドは通常プロンプトベースの条件付けに依存しており、CLIPのテキストエンコーダの制限に悩まされ、説明構造に弱い条件付けを提供する。
さらに、先行データセットは、識別画像の特徴の完全な多様性を捉えるのに失敗する単一で、しばしばノイズの多い、理性に制限される。
本研究では,各画像に複数の基幹的有理値がアノテートされたデータセットと,タスクのより包括的表現を提供するための評価指標を含む,多条件で説明可能なオブジェクト認識ベンチマークを提案する。
従来のアプローチの限界を克服するために,画像埋め込み,カテゴリラベル,合理性間の確率的関係を明示的にモデル化するコントラスト条件推論(CCI)フレームワークを提案する。
我々のフレームワークは、トレーニングを必要とせずに、より効果的な合理性条件付けを可能にし、正確な対象カテゴリを予測する。
提案手法は, 高いゼロショット性能を含む多段階的説明可能なオブジェクト認識ベンチマークの最先端性を実現し, 分類精度と合理性品質の両面での新しい基準を設定する。
ベンチマークとともに、この研究は、説明可能なオブジェクト認識における将来のモデルを評価するための、より完全なフレームワークを提供する。
コードはオンラインで公開されます。
関連論文リスト
- From Visual Explanations to Counterfactual Explanations with Latent Diffusion [11.433402357922414]
本稿では,近年の顕著な研究における2つの課題に対処するための新しいアプローチを提案する。
まず、ターゲットクラスの"概念"と元のクラスを区別するために、どの特定の反事実的特徴が重要かを決定する。
第二に、非ロバスト分類器に対して、対向的に堅牢なモデルのサポートに頼ることなく、重要な説明を提供する。
論文 参考訳(メタデータ) (2025-04-12T13:04:00Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。
われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文 参考訳(メタデータ) (2024-05-29T00:36:56Z) - ECOR: Explainable CLIP for Object Recognition [4.385998292803586]
本稿では,カテゴリと合理性の連立確率分布に基づくオブジェクト認識タスクにおける説明可能性の数学的定義を提案する。
本手法は,説明可能な分類における最先端性能を示す。
この進歩は、説明可能なオブジェクト認識を改善し、多様なアプリケーションに対する信頼を高める。
論文 参考訳(メタデータ) (2024-04-19T12:20:49Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Recursive Counterfactual Deconfounding for Object Recognition [20.128093193861165]
本稿では,クローズドセットとオープンセットの両方のシナリオにおいて,オブジェクト認識のための再帰的因果分解モデルを提案する。
提案したRCDモデルは,ほとんどの場合において,11の最先端ベースラインよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-09-25T07:46:41Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - Recognition Awareness: An Application of Latent Cognizance to Open-Set
Recognition [0.0]
ソフトマックスメカニズムは、モデルに事前定義されたラベルのセットからオブジェクトクラスを予測するように強制する。
この特徴は、分類における有効性に寄与するが、物体認識における非センス予測のリスクを生じさせる。
オープンセット認識は、オブジェクト認識における異物識別の問題に対処することを目的としている。
論文 参考訳(メタデータ) (2021-08-27T04:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。