論文の概要: ECOR: Explainable CLIP for Object Recognition
- arxiv url: http://arxiv.org/abs/2404.12839v1
- Date: Fri, 19 Apr 2024 12:20:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:07:01.805308
- Title: ECOR: Explainable CLIP for Object Recognition
- Title(参考訳): ECOR: オブジェクト認識のための説明可能なCLIP
- Authors: Ali Rasekh, Sepehr Kazemi Ranjbar, Milad Heidari, Wolfgang Nejdl,
- Abstract要約: 本稿では,カテゴリと合理性の連立確率分布に基づくオブジェクト認識タスクにおける説明可能性の数学的定義を提案する。
本手法は,説明可能な分類における最先端性能を示す。
この進歩は、説明可能なオブジェクト認識を改善し、多様なアプリケーションに対する信頼を高める。
- 参考スコア(独自算出の注目度): 4.385998292803586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision Language Models (VLMs), such as CLIP, have significantly contributed to various computer vision tasks, including object recognition and object detection. Their open vocabulary feature enhances their value. However, their black-box nature and lack of explainability in predictions make them less trustworthy in critical domains. Recently, some work has been done to force VLMs to provide reasonable rationales for object recognition, but this often comes at the expense of classification accuracy. In this paper, we first propose a mathematical definition of explainability in the object recognition task based on the joint probability distribution of categories and rationales, then leverage this definition to fine-tune CLIP in an explainable manner. Through evaluations of different datasets, our method demonstrates state-of-the-art performance in explainable classification. Notably, it excels in zero-shot settings, showcasing its adaptability. This advancement improves explainable object recognition, enhancing trust across diverse applications. The code will be made available online upon publication.
- Abstract(参考訳): CLIPのような大型ビジョン言語モデル(VLM)は、オブジェクト認識やオブジェクト検出など、様々なコンピュータビジョンタスクに大きく貢献している。
彼らのオープンな語彙機能は、その価値を高めます。
しかしながら、それらのブラックボックスの性質と予測における説明可能性の欠如により、重要な領域では信頼性が低下する。
近年、VLMにオブジェクト認識の合理的な根拠を与えるためにいくつかの研究がなされているが、これはしばしば分類精度を犠牲にしている。
本稿ではまず,カテゴリと有理の連立確率分布に基づいて,対象認識タスクにおける説明可能性の数学的定義を提案し,その定義を説明可能な方法で微調整CLIPに活用する。
提案手法は,異なるデータセットの評価を通じて,説明可能な分類における最先端性能を示す。
特筆すべきは、ゼロショット設定が優れていることだ。
この進歩は、説明可能なオブジェクト認識を改善し、多様なアプリケーションに対する信頼を高める。
コードは公開時にオンラインで公開されます。
関連論文リスト
- Concept Visualization: Explaining the CLIP Multi-modal Embedding Using WordNet [4.597864989500202]
埋め込みのマルチモーダルな性質を利用して画像のCLIP埋め込みを説明する新しいサリエンシ手法を提案する。
ConVisはWordNetからの語彙情報を利用して、終末モデルがトレーニングした概念に限らず、あらゆる概念に対してタスク非依存のSaliency Mapsを計算している。
論文 参考訳(メタデータ) (2024-05-23T13:41:17Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文 参考訳(メタデータ) (2024-02-23T16:50:07Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Doubly Right Object Recognition: A Why Prompt for Visual Rationales [28.408764714247837]
コンピュータビジョンモデルがそれらの予測に正しい合理性を与えることができるかどうかを考察する。
そこでは,モデルが正しいラベルと正しい理性の両方を同時に生成する必要がある。
論文 参考訳(メタデータ) (2022-12-12T19:25:45Z) - Object Recognition as Classification of Visual Properties [5.1652563977194434]
本稿では,Ranganathanの4段階の顔付き知識組織プロセスに基づく物体認識プロセスを提案する。
我々は,オブジェクト認識リソースの構築を目的とした,現在進行中のMultiMedia UKCを紹介した。
論文 参考訳(メタデータ) (2021-12-20T13:50:07Z) - Recognition Awareness: An Application of Latent Cognizance to Open-Set
Recognition [0.0]
ソフトマックスメカニズムは、モデルに事前定義されたラベルのセットからオブジェクトクラスを予測するように強制する。
この特徴は、分類における有効性に寄与するが、物体認識における非センス予測のリスクを生じさせる。
オープンセット認識は、オブジェクト認識における異物識別の問題に対処することを目的としている。
論文 参考訳(メタデータ) (2021-08-27T04:41:41Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。