論文の概要: Check It Again: Progressive Visual Question Answering via Visual
Entailment
- arxiv url: http://arxiv.org/abs/2106.04605v1
- Date: Tue, 8 Jun 2021 18:00:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 12:01:56.193584
- Title: Check It Again: Progressive Visual Question Answering via Visual
Entailment
- Title(参考訳): もう一度確認する: ビジュアルエンターテイメントによるプログレッシブなビジュアル質問回答
- Authors: Qingyi Si, Zheng Lin, Mingyu Zheng, Peng Fu, Weiping Wang
- Abstract要約: Visual Entailmentに基づいたSAR(Select-and-Rerank)プログレッシブフレームワークを提案する。
まず、質問や画像に関連する候補の答えを選択し、その候補の答えを視覚的細分化タスクで並べ替える。
実験の結果,VQA-CP v2の精度が7.55%向上した。
- 参考スコア(独自算出の注目度): 12.065178204539693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While sophisticated Visual Question Answering models have achieved remarkable
success, they tend to answer questions only according to superficial
correlations between question and answer. Several recent approaches have been
developed to address this language priors problem. However, most of them
predict the correct answer according to one best output without checking the
authenticity of answers. Besides, they only explore the interaction between
image and question, ignoring the semantics of candidate answers. In this paper,
we propose a select-and-rerank (SAR) progressive framework based on Visual
Entailment. Specifically, we first select the candidate answers relevant to the
question or the image, then we rerank the candidate answers by a visual
entailment task, which verifies whether the image semantically entails the
synthetic statement of the question and each candidate answer. Experimental
results show the effectiveness of our proposed framework, which establishes a
new state-of-the-art accuracy on VQA-CP v2 with a 7.55% improvement.
- Abstract(参考訳): 高度なVisual Question Answeringモデルは驚くほど成功したが、彼らは質問と回答の間の表面的相関によってのみ質問に答える傾向にある。
この言語に先立つ問題に対処するために、近年いくつかのアプローチが開発されている。
しかし、そのほとんどは、解答の正しさを確かめることなく、最良の出力に従って正しい解答を予測する。
さらに、彼らは画像と疑問の間の相互作用のみを探求し、候補解のセマンティクスを無視した。
本稿では,視覚インテリメントに基づくsar(select-and-rerank)プログレッシブフレームワークを提案する。
具体的には、まず、質問や画像に関連する候補回答を選択し、その候補回答を視覚的詳細タスクで再ランクし、その画像が質問の合成文と各候補回答を意味的に含むかどうかを検証する。
実験の結果, 7.55%改善したvqa-cp v2において, 新たな最先端精度を確立するためのフレームワークの有効性が示された。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - VQA Therapy: Exploring Answer Differences by Visually Grounding Answers [21.77545853313608]
視覚的な質問に対して各ユニークな回答を視覚的に根拠付ける最初のデータセットを紹介します。
次に,視覚的問題に1つの答えの根拠があるかどうかを予測する2つの新しい問題を提案する。
論文 参考訳(メタデータ) (2023-08-21T18:57:21Z) - Answering Ambiguous Questions with a Database of Questions, Answers, and
Revisions [95.92276099234344]
ウィキペディアから生成される曖昧な質問のデータベースを利用して、あいまいな質問に答えるための新しい最先端技術を提案する。
提案手法は,リコール対策で15%,予測出力から不明瞭な質問を評価する尺度で10%向上する。
論文 参考訳(メタデータ) (2023-08-16T20:23:16Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - Weakly Supervised Visual Question Answer Generation [2.7605547688813172]
視覚情報とキャプションから手続き的に質問応答対を合成的に生成する弱教師付き手法を提案する。
我々は,VQAデータセットの総合的な実験分析を行い,BLEUスコアのSOTA手法を著しく上回る結果を得た。
論文 参考訳(メタデータ) (2023-06-11T08:46:42Z) - Double Retrieval and Ranking for Accurate Question Answering [120.69820139008138]
本研究では,トランスフォーマーを用いた解答選択モデルに導入された解答検証ステップが,問合せ解答における解答の精度を大幅に向上させることを示す。
AS2のためのよく知られた3つのデータセットの結果は、最先端の一貫性と大幅な改善を示している。
論文 参考訳(メタデータ) (2022-01-16T06:20:07Z) - Graph-Based Tri-Attention Network for Answer Ranking in CQA [56.42018099917321]
本稿では,グラフに基づく新しい三者関係ネットワーク,すなわちGTANを提案し,回答ランキングのスコアを生成する。
実世界の3つのCQAデータセットの実験では、GTANは最先端の回答ランキング法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-03-05T10:40:38Z) - Answer-checking in Context: A Multi-modal FullyAttention Network for
Visual Question Answering [8.582218033859087]
完全注意に基づく視覚質問応答アーキテクチャを提案する。
共同回答,質問,画像表現を統一的に注目するために,回答チェックモジュールを提案する。
VQA-v2.0テスト標準スプリットのパラメータを減らし,最先端の精度71.57%を実現した。
論文 参考訳(メタデータ) (2020-10-17T03:37:16Z) - Answer-Driven Visual State Estimator for Goal-Oriented Visual Dialogue [42.563261906213455]
視覚状態に対する異なる回答の効果を付加するアンサー駆動型視覚状態推定器(ADVSE)を提案する。
まず、視覚的注意に対する回答駆動の効果を捉えるために、回答駆動集中注意(ADFA)を提案する。
そして、焦点をあてて、条件付き視覚情報融合(CVIF)による視覚状態推定を行う。
論文 参考訳(メタデータ) (2020-10-01T12:46:38Z) - Rephrasing visual questions by specifying the entropy of the answer
distribution [0.0]
本稿では,質問のあいまいさを制御し,新しい課題を提案する。
視覚的質問のあいまいさは、VQAモデルによって予測される回答分布のエントロピーを用いて定義される。
我々は,質問のあいまいさを制御できるアプローチの利点を実証し,あいまいさを減らすことよりも増大が難しいという興味深い観察を行った。
論文 参考訳(メタデータ) (2020-04-10T09:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。