論文の概要: REX: Reasoning-aware and Grounded Explanation
- arxiv url: http://arxiv.org/abs/2203.06107v1
- Date: Fri, 11 Mar 2022 17:28:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 14:36:53.360038
- Title: REX: Reasoning-aware and Grounded Explanation
- Title(参考訳): REX: Reasoning-aware と Grounded Explanation
- Authors: Shi Chen and Qi Zhao
- Abstract要約: 我々は,画像中の推論プロセスとグラウンド化キーワードをトラバースすることで,意思決定を説明する,新しいタイプのマルチモーダルな説明を開発する。
第2に、意思決定を説明するために、視覚的およびテキスト的モダリティに重要なコンポーネントを密に結合する必要があることを特定する。
第3に、単語と興味のある領域のペアワイズ対応を明示的にモデル化する、新しい説明生成手法を提案する。
- 参考スコア(独自算出の注目度): 30.392986232906107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectiveness and interpretability are two essential properties for
trustworthy AI systems. Most recent studies in visual reasoning are dedicated
to improving the accuracy of predicted answers, and less attention is paid to
explaining the rationales behind the decisions. As a result, they commonly take
advantage of spurious biases instead of actually reasoning on the
visual-textual data, and have yet developed the capability to explain their
decision making by considering key information from both modalities. This paper
aims to close the gap from three distinct perspectives: first, we define a new
type of multi-modal explanations that explain the decisions by progressively
traversing the reasoning process and grounding keywords in the images. We
develop a functional program to sequentially execute different reasoning steps
and construct a new dataset with 1,040,830 multi-modal explanations. Second, we
identify the critical need to tightly couple important components across the
visual and textual modalities for explaining the decisions, and propose a novel
explanation generation method that explicitly models the pairwise
correspondence between words and regions of interest. It improves the visual
grounding capability by a considerable margin, resulting in enhanced
interpretability and reasoning performance. Finally, with our new data and
method, we perform extensive analyses to study the effectiveness of our
explanation under different settings, including multi-task learning and
transfer learning. Our code and data are available at
https://github.com/szzexpoi/rex.
- Abstract(参考訳): 有効性と解釈可能性は、信頼できるAIシステムに不可欠な2つの性質である。
視覚的推論における最近の研究は、予測された回答の正確性を改善することに集中しており、決定の背後にある理論的根拠を説明するために注意を払わない。
結果として、彼らは一般的に、実際の視覚的・テキストデータを推論するのではなく、スプリアスバイアスを生かして、両方のモダリティから重要な情報を考慮して意思決定を説明する能力を開発した。
本稿では,3つの異なる視点からギャップを埋めることを目的とした。まず,推論過程を段階的にトラバースし,画像中のキーワードを接地することによって,決定を説明する新しいタイプのマルチモーダル説明を定義する。
異なる推論ステップを順次実行し,1,040,830のマルチモーダルな説明による新しいデータセットを構築する機能プログラムを開発した。
第2に、決定を説明するために視覚的およびテキスト的モダリティにまたがる重要な要素を密に結合することの必要性を特定し、興味のある単語と領域のペアリー対応を明示的にモデル化する新しい説明生成法を提案する。
視覚的接地能力はかなりの差で向上し、解釈可能性と推論性能が向上する。
最後に,新しいデータと手法を用いて,マルチタスク学習やトランスファー学習など,さまざまな環境下での説明の有効性を検討する。
私たちのコードとデータはhttps://github.com/szzexpoi/rexで入手できます。
関連論文リスト
- MEGL: Multimodal Explanation-Guided Learning [23.54169888224728]
本稿では,モデル解釈性の向上と分類性能の向上を目的とした,新しいマルチモーダル説明誘導学習(MEGL)フレームワークを提案する。
我々のSDTG(Saliency-Driven Textual Grounding)アプローチは、視覚的説明からテキスト論理へ空間情報を統合し、空間的根拠と文脈的リッチな説明を提供する。
我々は、マルチモーダルな説明を伴う画像分類のための2つの新しいデータセットであるObject-MEとAction-MEでMEGLを検証した。
論文 参考訳(メタデータ) (2024-11-20T05:57:00Z) - Explainability for Machine Learning Models: From Data Adaptability to
User Perception [0.8702432681310401]
この論文は、すでにデプロイされた機械学習モデルに対する局所的な説明の生成を探求する。
データとユーザ要件の両方を考慮して、意味のある説明を生み出すための最適な条件を特定することを目的としている。
論文 参考訳(メタデータ) (2024-02-16T18:44:37Z) - Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文 参考訳(メタデータ) (2023-11-11T12:01:18Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Complementary Explanations for Effective In-Context Learning [77.83124315634386]
大規模言語モデル (LLM) は、説明のインプロンプトから学習する際、顕著な能力を示した。
この研究は、文脈内学習に説明が使用されるメカニズムをよりよく理解することを目的としている。
論文 参考訳(メタデータ) (2022-11-25T04:40:47Z) - Textual Explanations and Critiques in Recommendation Systems [8.406549970145846]
論文は、このニーズに対処する2つの根本的な課題に焦点を当てています。
1つ目は、スケーラブルでデータ駆動的な説明生成である。
第2の課題は、説明を実行可能なものにすることだ。
論文 参考訳(メタデータ) (2022-05-15T11:59:23Z) - Human Interpretation of Saliency-based Explanation Over Text [65.29015910991261]
テキストデータ上でのサリエンシに基づく説明について検討する。
人はしばしば説明を誤って解釈する。
本稿では,過度知覚と過小認識のモデル推定に基づいて,サリエンシを調整する手法を提案する。
論文 参考訳(メタデータ) (2022-01-27T15:20:32Z) - A First Look: Towards Explainable TextVQA Models via Visual and Textual
Explanations [3.7638008383533856]
MTXNetは、エンドツーエンドのトレーニング可能なマルチモーダルアーキテクチャで、マルチモーダルな説明を生成する。
マルチモーダルな説明によるトレーニングは、CIDErスコアで最大7%、IoUでは2%を超えることが示されています。
また,生成したマルチモーダル説明を利用した実世界の電子商取引アプリケーションについても述べる。
論文 参考訳(メタデータ) (2021-04-29T00:36:17Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z) - Generating Hierarchical Explanations on Text Classification via Feature
Interaction Detection [21.02924712220406]
特徴的相互作用を検出することによって階層的な説明を構築する。
このような説明は、単語とフレーズが階層の異なるレベルでどのように結合されるかを視覚化する。
実験は、モデルに忠実であり、人間に解釈可能な説明を提供する上で、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2020-04-04T20:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。