Fugu-MT 論文翻訳(概要): Interpretable Visual Question Answering Referring to Outside Knowledge

論文の概要: Interpretable Visual Question Answering Referring to Outside Knowledge

arxiv url: http://arxiv.org/abs/2303.04388v1
Date: Wed, 8 Mar 2023 05:28:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-09 15:01:19.064297
Title: Interpretable Visual Question Answering Referring to Outside Knowledge
Title（参考訳）: 外部知識を参照する解釈可能な視覚的質問応答
Authors: He Zhu, Ren Togo, Takahiro Ogawa and Miki Haseyama
Abstract要約: 本稿では, より正確に解答でき, 多様な説明を生成できる新しいマルチモーダル解釈型VQAモデルを提案する。提案手法は,外部知識と複数の画像キャプションからの情報を組み込んで,モデルで利用可能な情報の多様性を向上させる。
参考スコア（独自算出の注目度）: 40.154806638990706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a novel multimodal interpretable VQA model that can answer the question more accurately and generate diverse explanations. Although researchers have proposed several methods that can generate human-readable and fine-grained natural language sentences to explain a model's decision, these methods have focused solely on the information in the image. Ideally, the model should refer to various information inside and outside the image to correctly generate explanations, just as we use background knowledge daily. The proposed method incorporates information from outside knowledge and multiple image captions to increase the diversity of information available to the model. The contribution of this paper is to construct an interpretable visual question answering model using multimodal inputs to improve the rationality of generated results. Experimental results show that our model can outperform state-of-the-art methods regarding answer accuracy and explanation rationality.
Abstract（参考訳）: 本稿では, より正確に解答でき, 多様な説明を生成できる新しいマルチモーダル解釈型VQAモデルを提案する。研究者は、モデルの決定を説明するために、可読性がありきめ細かい自然言語文を生成する方法をいくつか提案しているが、これらの方法は画像内の情報のみに焦点を当てている。理想的には、背景知識を毎日使用するように、モデルが画像内外の様々な情報を参照して説明を正しく生成する必要がある。提案手法では,外部知識情報と複数のキャプション情報を組み合わせて,モデルに利用可能な情報の多様性を高める。本稿では,多モード入力を用いた解釈可能な視覚質問応答モデルを構築し,結果の合理性を向上させる。実験結果から,本モデルは解答精度と説明合理性に関する最先端手法よりも優れていることがわかった。

関連論文リスト

Cross-Examiner: Evaluating Consistency of Large Language Model-Generated Explanations [12.615208274851152]
大規模言語モデル(LLM)は、精度と透明性を高めるために出力を説明するように求められることが多い。証拠は、これらの説明がモデルの真の推論過程を誤って表現できることを示唆している。本稿では、モデルによる初期質問の説明に基づいて、フォローアップ質問を生成する新しい方法であるクロスアナライザを紹介する。
論文参考訳（メタデータ） (2025-03-11T18:50:43Z)
CNN-based explanation ensembling for dataset, representation and explanations evaluation [1.1060425537315088]
畳み込みモデルを用いた深層分類モデルによる説明文の要約の可能性について検討する。実験と分析を通じて、モデル行動のより一貫性と信頼性のあるパターンを明らかにするために、説明を組み合わせることの意味を明らかにすることを目的とする。
論文参考訳（メタデータ） (2024-04-16T08:39:29Z)
Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文参考訳（メタデータ） (2024-04-03T10:11:22Z)
TExplain: Explaining Learned Visual Features via Pre-trained (Frozen) Language Models [14.019349267520541]
本稿では,事前学習した画像分類器の学習特徴を解釈するために,言語モデルの能力を活用する新しい手法を提案する。提案手法は,与えられた画像の分類器によって学習された特徴を説明するために,膨大な数の文を生成する。提案手法は,視覚表現に対応する頻繁な単語を初めて利用し,意思決定プロセスに関する洞察を提供する。
論文参考訳（メタデータ） (2023-09-01T20:59:46Z)
Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文参考訳（メタデータ） (2023-05-24T08:33:15Z)
Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文参考訳（メタデータ） (2022-07-04T22:14:40Z)
NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks [18.13793282306575]
自然言語説明(NLE)モデルは、ブラックボックスシステムの意思決定プロセスを説明することを目的としている。 NLX-GPTは汎用的でコンパクトで忠実な言語モデルであり,回答を同時に予測し,それを説明できる。次に、多回に渡り、汎用的で、データバイアスがあり、複数の形式で説明を評価できる問題に対処する。
論文参考訳（メタデータ） (2022-03-09T22:57:15Z)
Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文参考訳（メタデータ） (2022-02-21T18:32:24Z)
A First Look: Towards Explainable TextVQA Models via Visual and Textual Explanations [3.7638008383533856]
MTXNetは、エンドツーエンドのトレーニング可能なマルチモーダルアーキテクチャで、マルチモーダルな説明を生成する。マルチモーダルな説明によるトレーニングは、CIDErスコアで最大7%、IoUでは2%を超えることが示されています。また,生成したマルチモーダル説明を利用した実世界の電子商取引アプリケーションについても述べる。
論文参考訳（メタデータ） (2021-04-29T00:36:17Z)
Explainable Recommender Systems via Resolving Learning Representations [57.24565012731325]
説明はユーザー体験を改善し、システムの欠陥を発見するのに役立つ。本稿では,表現学習プロセスの透明性を向上させることによって,説明可能な新しい推薦モデルを提案する。
論文参考訳（メタデータ） (2020-08-21T05:30:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。