論文の概要: Doubly Right Object Recognition: A Why Prompt for Visual Rationales
- arxiv url: http://arxiv.org/abs/2212.06202v1
- Date: Mon, 12 Dec 2022 19:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 14:37:35.257351
- Title: Doubly Right Object Recognition: A Why Prompt for Visual Rationales
- Title(参考訳): 2つの正しいオブジェクト認識: 視覚的合理的な理由
- Authors: Chengzhi Mao, Revant Teotia, Amrutha Sundar, Sachit Menon, Junfeng
Yang, Xin Wang, Carl Vondrick
- Abstract要約: コンピュータビジョンモデルがそれらの予測に正しい合理性を与えることができるかどうかを考察する。
そこでは,モデルが正しいラベルと正しい理性の両方を同時に生成する必要がある。
- 参考スコア(独自算出の注目度): 28.408764714247837
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many visual recognition models are evaluated only on their classification
accuracy, a metric for which they obtain strong performance. In this paper, we
investigate whether computer vision models can also provide correct rationales
for their predictions. We propose a ``doubly right'' object recognition
benchmark, where the metric requires the model to simultaneously produce both
the right labels as well as the right rationales. We find that state-of-the-art
visual models, such as CLIP, often provide incorrect rationales for their
categorical predictions. However, by transferring the rationales from language
models into visual representations through a tailored dataset, we show that we
can learn a ``why prompt,'' which adapts large visual representations to
produce correct rationales. Visualizations and empirical experiments show that
our prompts significantly improve performance on doubly right object
recognition, in addition to zero-shot transfer to unseen tasks and datasets.
- Abstract(参考訳): 多くの視覚認識モデルは、それらが強い性能を得る指標である分類精度に基づいて評価される。
本稿では,コンピュータビジョンモデルが予測に正しい根拠を与えることができるかどうかを考察する。
そこで、メトリクスはモデルに対して、正しいラベルと正しい合理性の両方を同時に生成するように要求する。
クリップのような最先端の視覚モデルは、分類学的予測に不正確な根拠を与えることが多い。
しかし, 言語モデルから, 適切なデータセットを用いて視覚表現に有理を変換することにより, 大きな視覚表現を適応させて正しい有理を生成できる「なぜプロンプト」を学習できることが示される。
可視化と実証実験により,2倍のオブジェクト認識の性能が向上し,非認識タスクやデータセットへのゼロショット転送も向上した。
関連論文リスト
- Assessing Graphical Perception of Image Embedding Models using Channel Effectiveness [20.269583912221734]
画像埋め込みモデルの視覚的知覚を評価するための新しい評価フレームワークを提案する。
チャート理解のために,様々な視覚チャネルの精度と識別可能性という,チャネルの有効性の2つの主な側面について検討する。
CLIPモデルを用いた実験では、チャンネルの精度が人間と異なることが分かり、長さ、傾き、曲率などのチャンネルで独自の識別性を示す。
論文 参考訳(メタデータ) (2024-07-30T14:22:13Z) - ECOR: Explainable CLIP for Object Recognition [4.385998292803586]
本稿では,カテゴリと合理性の連立確率分布に基づくオブジェクト認識タスクにおける説明可能性の数学的定義を提案する。
本手法は,説明可能な分類における最先端性能を示す。
この進歩は、説明可能なオブジェクト認識を改善し、多様なアプリケーションに対する信頼を高める。
論文 参考訳(メタデータ) (2024-04-19T12:20:49Z) - Classes Are Not Equal: An Empirical Study on Image Recognition Fairness [100.36114135663836]
我々は,クラスが等しくないことを実験的に証明し,様々なデータセットにまたがる画像分類モデルにおいて,公平性の問題が顕著であることを示した。
以上の結果から,モデルでは認識が困難であるクラスに対して,予測バイアスが大きくなる傾向が示唆された。
データ拡張および表現学習アルゴリズムは、画像分類のある程度の公平性を促進することにより、全体的なパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-02-28T07:54:50Z) - Recursive Counterfactual Deconfounding for Object Recognition [20.128093193861165]
本稿では,クローズドセットとオープンセットの両方のシナリオにおいて,オブジェクト認識のための再帰的因果分解モデルを提案する。
提案したRCDモデルは,ほとんどの場合において,11の最先端ベースラインよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-09-25T07:46:41Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Masked prediction tasks: a parameter identifiability view [49.533046139235466]
マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。
いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
論文 参考訳(メタデータ) (2022-02-18T17:09:32Z) - Desiderata for Representation Learning: A Causal Perspective [104.3711759578494]
我々は表現学習の因果的視点を採り、非純粋性と効率性(教師なし表現学習)と非教師なし表現学習(教師なし表現学習)を定式化する。
これは、関心のデシダータを満たす程度を計算可能なメトリクスで評価し、単一の観測データセットから不純物や不整合表現を学習する。
論文 参考訳(メタデータ) (2021-09-08T17:33:54Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - SHOP-VRB: A Visual Reasoning Benchmark for Object Perception [26.422761228628698]
ロボット工学応用における視覚的推論のためのアプローチとベンチマークを提案する。
視覚データとテキストデータからオブジェクトプロパティを推測することに注力する。
シンボリックプログラム実行に基づく推論システムを提案する。
論文 参考訳(メタデータ) (2020-04-06T13:46:54Z) - ViCE: Visual Counterfactual Explanations for Machine Learning Models [13.94542147252982]
本稿では,対話型視覚分析ツールViCEを提案する。
結果が視覚インターフェースに効果的に表示され、そのデータとモデルを探索するための対話的手法が提供される。
論文 参考訳(メタデータ) (2020-03-05T04:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。