論文の概要: Show Why the Answer is Correct! Towards Explainable AI using
Compositional Temporal Attention
- arxiv url: http://arxiv.org/abs/2105.07141v1
- Date: Sat, 15 May 2021 04:51:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:48:46.633152
- Title: Show Why the Answer is Correct! Towards Explainable AI using
Compositional Temporal Attention
- Title(参考訳): なぜ答えが正しいのか示せ!
構成的時間的注意を用いた説明可能なAIを目指して
- Authors: Nihar Bendre, Kevin Desai and Peyman Najafirad
- Abstract要約: VQAモデルの成功にもかかわらず、主にブラックボックスモデルであり、予測された回答の理由を示さない。
芸術の現在の状態は、より複雑な質問に失敗し、構成性を活用できない。
本稿では,特定の質問を理解し,比較的浅い深層学習モジュールを動的に組み立てる動的ニューラルネットワーク(dmn)を提案する。
- 参考スコア(独自算出の注目度): 0.9054540533394924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) models have achieved significant success in
recent times. Despite the success of VQA models, they are mostly black-box
models providing no reasoning about the predicted answer, thus raising
questions for their applicability in safety-critical such as autonomous systems
and cyber-security. Current state of the art fail to better complex questions
and thus are unable to exploit compositionality. To minimize the black-box
effect of these models and also to make them better exploit compositionality,
we propose a Dynamic Neural Network (DMN), which can understand a particular
question and then dynamically assemble various relatively shallow deep learning
modules from a pool of modules to form a network. We incorporate compositional
temporal attention to these deep learning based modules to increase
compositionality exploitation. This results in achieving better understanding
of complex questions and also provides reasoning as to why the module predicts
a particular answer. Experimental analysis on the two benchmark datasets,
VQA2.0 and CLEVR, depicts that our model outperforms the previous approaches
for Visual Question Answering task as well as provides better reasoning, thus
making it reliable for mission critical applications like safety and security.
- Abstract(参考訳): VQA(Visual Question Answering)モデルは近年大きな成功を収めている。
VQAモデルの成功にもかかわらず、おもにブラックボックスモデルであり、予測された回答の理由を示さないため、自律システムやサイバーセキュリティなど、安全クリティカルなモデルの適用性に関する疑問が提起されている。
芸術の現在の状態は、より複雑な質問に失敗し、構成性を活用できない。
これらのモデルのブラックボックス効果を最小限に抑え、構成性をうまく活用するために、特定の疑問を理解し、モジュールのプールから比較的浅い深層学習モジュールを動的に組み立ててネットワークを形成する動的ニューラルネットワーク(DMN)を提案する。
これらの深層学習に基づくモジュールにコンポジションの時間的注意を取り入れ,コンポジションの活用性を高める。
この結果、複雑な質問をよりよく理解し、モジュールが特定の答えを予測する理由を推論する。
2つのベンチマークデータセットであるVQA2.0とCLEVRの実験分析では、私たちのモデルは、ビジュアル質問回答タスクの以前のアプローチよりも優れており、より良い推論を提供し、安全やセキュリティといったミッションクリティカルなアプリケーションに信頼性を与えている。
関連論文リスト
- STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results
for Video Question Answering [42.173245795917026]
本稿では,ビデオ質問応答のための時空間推論モデルSTAIRを提案する。
STAIRは、与えられた質問を複数のサブタスクの階層的な組み合わせに分解するプログラムジェネレータを含むニューラルネットワークである。
我々は、STAIRのパフォーマンス、説明可能性、事前訓練されたモデルとの互換性、プログラムアノテーションが利用できない場合の適用性を示すために、いくつかのビデオ質問応答データセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2024-01-08T14:01:59Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - UKP-SQuARE v2 Explainability and Adversarial Attacks for Trustworthy QA [47.8796570442486]
質問回答システムは、現実の意思決定をサポートするアプリケーションにますますデプロイされています。
本質的に解釈可能なモデルやポストホックな説明可能性メソッドは、モデルがその予測にどのように到着するかをユーザが理解するのに役立ちます。
SQuAREの新バージョンであるSQuARE v2を導入し、モデルを比較するための説明可能性インフラストラクチャを提供する。
論文 参考訳(メタデータ) (2022-08-19T13:01:01Z) - Joint Models for Answer Verification in Question Answering Systems [85.93456768689404]
我々は3方向のマルチクラス化器を構築し、解答が他の解答をサポートするか、反証するか、あるいは中立かを決定する。
私たちは、WikiQA、TREC-QA、実世界のデータセットでモデルをテストしました。
論文 参考訳(メタデータ) (2021-07-09T05:34:36Z) - SOrT-ing VQA Models : Contrastive Gradient Learning for Improved
Consistency [64.67155167618894]
本稿では、画像上の推論問題と最も強く相関する質問を決定するために、勾配に基づく解釈可能性アプローチを提案する。
次に,サブクエスト指向チューニング (SOrT) と呼ばれる,相対的勾配学習に基づくアプローチを提案する。
我々は、SOrTが既存のベースラインよりも最大6.5%のモデルの一貫性を向上し、また、視覚的グラウンド化を改善していることを示す。
論文 参考訳(メタデータ) (2020-10-20T05:15:48Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。