論文の概要: Improving VQA and its Explanations \\ by Comparing Competing
Explanations
- arxiv url: http://arxiv.org/abs/2006.15631v1
- Date: Sun, 28 Jun 2020 15:11:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 02:51:09.980953
- Title: Improving VQA and its Explanations \\ by Comparing Competing
Explanations
- Title(参考訳): 競合説明との比較によるVQAとその説明 \\の改善
- Authors: Jialin Wu, Liyan Chen and Raymond J. Mooney
- Abstract要約: 本稿では,VQAシステムの正しい解選択を支援するために,競合する解法を説明する新しいフレームワークを提案する。
人間の文章による説明の訓練により,質問や視覚的内容の表現性の向上が図られた。
我々はVQA-Xデータセットの枠組みを評価する。
- 参考スコア(独自算出の注目度): 23.657519345507815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most recent state-of-the-art Visual Question Answering (VQA) systems are
opaque black boxes that are only trained to fit the answer distribution given
the question and visual content. As a result, these systems frequently take
shortcuts, focusing on simple visual concepts or question priors. This
phenomenon becomes more problematic as the questions become complex that
requires more reasoning and commonsense knowledge. To address this issue, we
present a novel framework that uses explanations for competing answers to help
VQA systems select the correct answer. By training on human textual
explanations, our framework builds better representations for the questions and
visual content, and then reweights confidences in the answer candidates using
either generated or retrieved explanations from the training set. We evaluate
our framework on the VQA-X dataset, which has more difficult questions with
human explanations, achieving new state-of-the-art results on both VQA and its
explanations.
- Abstract(参考訳): 最新のVisual Question Answering (VQA)システムは不透明なブラックボックスで、質問とビジュアルコンテンツから回答の分布に適合するように訓練されている。
結果として、これらのシステムは、単純な視覚概念や質問の事前に焦点をあてて、しばしばショートカットを行う。
この現象は、より推論と常識の知識を必要とする疑問が複雑になるにつれて、より問題となる。
この問題に対処するために,VQAシステムの正しい解選択を支援するために,競合する解に対する説明を用いた新しいフレームワークを提案する。
人間の文章による説明をトレーニングすることで,質問や視覚的内容の表現が向上し,学習セットから生成された説明や検索された説明を用いて回答候補の信頼度が向上する。
我々は、VQA-Xデータセットの枠組みを評価し、人間の説明によりより難しい質問をし、VQAとその説明の両方で新たな最先端結果を達成する。
関連論文リスト
- Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA [19.6585442152102]
本稿では,知識に基づく視覚的問合せ問題について検討し,その解を求めるためには,モデルが視覚的モダリティに根ざす必要があることを示した。
我々の研究は、複雑な質問をいくつかの単純な質問に置き換えることで、画像からより関連性の高い情報を抽出できることを示した。
論文 参考訳(メタデータ) (2024-06-27T02:19:38Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Entity-Focused Dense Passage Retrieval for Outside-Knowledge Visual
Question Answering [27.38981906033932]
Outside-Knowledge Visual Question Answering (OK-VQA) システムは、まず外部知識を取得して回答を予測する2段階のフレームワークを使用している。
検索はしばしばあまりに一般的であり、質問に答えるために必要な特定の知識をカバーできない。
本稿では,より具体的な知識を得るのに役立つ質問関連エンティティを識別し,トレーニング中のより強力な監視を提供するEntity-Focused Retrieval(EnFoRe)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-18T21:39:24Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - Understanding Knowledge Gaps in Visual Question Answering: Implications
for Gap Identification and Testing [20.117014315684287]
我々は、知識ギャップ(KG)の分類を用いて、質問を1つまたは複数のタイプのKGでタグ付けする。
次に,各KGに対する質問の分布のスキューについて検討する。
これらの新しい質問は、既存のVQAデータセットに追加することで、質問の多様性を高め、スキューを減らすことができる。
論文 参考訳(メタデータ) (2020-04-08T00:27:43Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。