論文の概要: Interpretable Visual Question Answering Referring to Outside Knowledge
- arxiv url: http://arxiv.org/abs/2303.04388v1
- Date: Wed, 8 Mar 2023 05:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 15:01:19.064297
- Title: Interpretable Visual Question Answering Referring to Outside Knowledge
- Title(参考訳): 外部知識を参照する解釈可能な視覚的質問応答
- Authors: He Zhu, Ren Togo, Takahiro Ogawa and Miki Haseyama
- Abstract要約: 本稿では, より正確に解答でき, 多様な説明を生成できる新しいマルチモーダル解釈型VQAモデルを提案する。
提案手法は,外部知識と複数の画像キャプションからの情報を組み込んで,モデルで利用可能な情報の多様性を向上させる。
- 参考スコア(独自算出の注目度): 40.154806638990706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel multimodal interpretable VQA model that can answer the
question more accurately and generate diverse explanations. Although
researchers have proposed several methods that can generate human-readable and
fine-grained natural language sentences to explain a model's decision, these
methods have focused solely on the information in the image. Ideally, the model
should refer to various information inside and outside the image to correctly
generate explanations, just as we use background knowledge daily. The proposed
method incorporates information from outside knowledge and multiple image
captions to increase the diversity of information available to the model. The
contribution of this paper is to construct an interpretable visual question
answering model using multimodal inputs to improve the rationality of generated
results. Experimental results show that our model can outperform
state-of-the-art methods regarding answer accuracy and explanation rationality.
- Abstract(参考訳): 本稿では, より正確に解答でき, 多様な説明を生成できる新しいマルチモーダル解釈型VQAモデルを提案する。
研究者は、モデルの決定を説明するために、可読性がありきめ細かい自然言語文を生成する方法をいくつか提案しているが、これらの方法は画像内の情報のみに焦点を当てている。
理想的には、背景知識を毎日使用するように、モデルが画像内外の様々な情報を参照して説明を正しく生成する必要がある。
提案手法では,外部知識情報と複数のキャプション情報を組み合わせて,モデルに利用可能な情報の多様性を高める。
本稿では,多モード入力を用いた解釈可能な視覚質問応答モデルを構築し,結果の合理性を向上させる。
実験結果から,本モデルは解答精度と説明合理性に関する最先端手法よりも優れていることがわかった。
関連論文リスト
- Q&A Prompts: Discovering Rich Visual Clues through Mining
Question-Answer Prompts for VQA requiring Diverse World Knowledge [8.198028287058852]
我々は、堅牢な相互モダリティ推論能力を持つAIモデルを装備するためのQ&A Promptsを提案する。
まず、視覚的質問生成モデルの入力と出力として、画像と回答のペアと対応する質問をトレーニングセットとして使用する。
次に、画像タグモデルを用いて様々なインスタンスを識別し、パッケージ化された画像タグペアを視覚質問生成モデルに送信し、抽出した画像タグと関連する質問を回答として生成する。
論文 参考訳(メタデータ) (2024-01-19T14:22:29Z) - TExplain: Explaining Learned Visual Features via Pre-trained (Frozen)
Language Models [15.920420423789308]
本稿では,事前学習した画像分類器の学習特徴を解釈するために,言語モデルの能力を活用する新しい手法を提案する。
提案手法は,与えられた画像の分類器によって学習された特徴を説明するために,膨大な数の文を生成する。
提案手法は,視覚表現に対応する頻繁な単語を初めて利用し,意思決定プロセスに関する洞察を提供する。
論文 参考訳(メタデータ) (2023-09-01T20:59:46Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language [49.82293730925404]
大規模な基盤モデルは、トレーニングされたデータのドメインによって、ユニークな機能を示すことができます。
このモデルの多様性は共生的であり,構造化ソクラテス対話を用いたAIシステム構築に活用可能であることを示す。
論文 参考訳(メタデータ) (2022-04-01T17:43:13Z) - NLX-GPT: A Model for Natural Language Explanations in Vision and
Vision-Language Tasks [18.13793282306575]
自然言語説明(NLE)モデルは、ブラックボックスシステムの意思決定プロセスを説明することを目的としている。
NLX-GPTは汎用的でコンパクトで忠実な言語モデルであり,回答を同時に予測し,それを説明できる。
次に、多回に渡り、汎用的で、データバイアスがあり、複数の形式で説明を評価できる問題に対処する。
論文 参考訳(メタデータ) (2022-03-09T22:57:15Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Explanation as a process: user-centric construction of multi-level and
multi-modal explanations [0.34410212782758043]
本稿では,マルチレベルとマルチモーダルな説明を組み合わせたプロセスベースアプローチを提案する。
私たちは、解釈可能な機械学習アプローチであるインダクティブロジックプログラミングを使用して、理解可能なモデルを学びます。
論文 参考訳(メタデータ) (2021-10-07T19:26:21Z) - A First Look: Towards Explainable TextVQA Models via Visual and Textual
Explanations [3.7638008383533856]
MTXNetは、エンドツーエンドのトレーニング可能なマルチモーダルアーキテクチャで、マルチモーダルな説明を生成する。
マルチモーダルな説明によるトレーニングは、CIDErスコアで最大7%、IoUでは2%を超えることが示されています。
また,生成したマルチモーダル説明を利用した実世界の電子商取引アプリケーションについても述べる。
論文 参考訳(メタデータ) (2021-04-29T00:36:17Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Explainable Recommender Systems via Resolving Learning Representations [57.24565012731325]
説明はユーザー体験を改善し、システムの欠陥を発見するのに役立つ。
本稿では,表現学習プロセスの透明性を向上させることによって,説明可能な新しい推薦モデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T05:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。