論文の概要: Interpretable Visual Question Answering Referring to Outside Knowledge
- arxiv url: http://arxiv.org/abs/2303.04388v1
- Date: Wed, 8 Mar 2023 05:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 15:01:19.064297
- Title: Interpretable Visual Question Answering Referring to Outside Knowledge
- Title(参考訳): 外部知識を参照する解釈可能な視覚的質問応答
- Authors: He Zhu, Ren Togo, Takahiro Ogawa and Miki Haseyama
- Abstract要約: 本稿では, より正確に解答でき, 多様な説明を生成できる新しいマルチモーダル解釈型VQAモデルを提案する。
提案手法は,外部知識と複数の画像キャプションからの情報を組み込んで,モデルで利用可能な情報の多様性を向上させる。
- 参考スコア(独自算出の注目度): 40.154806638990706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel multimodal interpretable VQA model that can answer the
question more accurately and generate diverse explanations. Although
researchers have proposed several methods that can generate human-readable and
fine-grained natural language sentences to explain a model's decision, these
methods have focused solely on the information in the image. Ideally, the model
should refer to various information inside and outside the image to correctly
generate explanations, just as we use background knowledge daily. The proposed
method incorporates information from outside knowledge and multiple image
captions to increase the diversity of information available to the model. The
contribution of this paper is to construct an interpretable visual question
answering model using multimodal inputs to improve the rationality of generated
results. Experimental results show that our model can outperform
state-of-the-art methods regarding answer accuracy and explanation rationality.
- Abstract(参考訳): 本稿では, より正確に解答でき, 多様な説明を生成できる新しいマルチモーダル解釈型VQAモデルを提案する。
研究者は、モデルの決定を説明するために、可読性がありきめ細かい自然言語文を生成する方法をいくつか提案しているが、これらの方法は画像内の情報のみに焦点を当てている。
理想的には、背景知識を毎日使用するように、モデルが画像内外の様々な情報を参照して説明を正しく生成する必要がある。
提案手法では,外部知識情報と複数のキャプション情報を組み合わせて,モデルに利用可能な情報の多様性を高める。
本稿では,多モード入力を用いた解釈可能な視覚質問応答モデルを構築し,結果の合理性を向上させる。
実験結果から,本モデルは解答精度と説明合理性に関する最先端手法よりも優れていることがわかった。
関連論文リスト
- CNN-based explanation ensembling for dataset, representation and explanations evaluation [1.1060425537315088]
畳み込みモデルを用いた深層分類モデルによる説明文の要約の可能性について検討する。
実験と分析を通じて、モデル行動のより一貫性と信頼性のあるパターンを明らかにするために、説明を組み合わせることの意味を明らかにすることを目的とする。
論文 参考訳(メタデータ) (2024-04-16T08:39:29Z) - Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。
最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。
生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文 参考訳(メタデータ) (2024-04-03T10:11:22Z) - TExplain: Explaining Learned Visual Features via Pre-trained (Frozen) Language Models [14.019349267520541]
本稿では,事前学習した画像分類器の学習特徴を解釈するために,言語モデルの能力を活用する新しい手法を提案する。
提案手法は,与えられた画像の分類器によって学習された特徴を説明するために,膨大な数の文を生成する。
提案手法は,視覚表現に対応する頻繁な単語を初めて利用し,意思決定プロセスに関する洞察を提供する。
論文 参考訳(メタデータ) (2023-09-01T20:59:46Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - NLX-GPT: A Model for Natural Language Explanations in Vision and
Vision-Language Tasks [18.13793282306575]
自然言語説明(NLE)モデルは、ブラックボックスシステムの意思決定プロセスを説明することを目的としている。
NLX-GPTは汎用的でコンパクトで忠実な言語モデルであり,回答を同時に予測し,それを説明できる。
次に、多回に渡り、汎用的で、データバイアスがあり、複数の形式で説明を評価できる問題に対処する。
論文 参考訳(メタデータ) (2022-03-09T22:57:15Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - A First Look: Towards Explainable TextVQA Models via Visual and Textual
Explanations [3.7638008383533856]
MTXNetは、エンドツーエンドのトレーニング可能なマルチモーダルアーキテクチャで、マルチモーダルな説明を生成する。
マルチモーダルな説明によるトレーニングは、CIDErスコアで最大7%、IoUでは2%を超えることが示されています。
また,生成したマルチモーダル説明を利用した実世界の電子商取引アプリケーションについても述べる。
論文 参考訳(メタデータ) (2021-04-29T00:36:17Z) - Explainable Recommender Systems via Resolving Learning Representations [57.24565012731325]
説明はユーザー体験を改善し、システムの欠陥を発見するのに役立つ。
本稿では,表現学習プロセスの透明性を向上させることによって,説明可能な新しい推薦モデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T05:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。