論文の概要: 'Just because you are right, doesn't mean I am wrong': Overcoming a
Bottleneck in the Development and Evaluation of Open-Ended Visual Question
Answering (VQA) Tasks
- arxiv url: http://arxiv.org/abs/2103.15022v1
- Date: Sun, 28 Mar 2021 00:07:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 09:24:13.488707
- Title: 'Just because you are right, doesn't mean I am wrong': Overcoming a
Bottleneck in the Development and Evaluation of Open-Ended Visual Question
Answering (VQA) Tasks
- Title(参考訳): 「あなたが正しいからといって、私が間違っているというわけではない」:オープンエンディングビジュアル質問回答(VQA)タスクの開発と評価におけるボタネックの克服
- Authors: Man Luo, Shailaja Keyur Sampat, Riley Tallman, Yankai Zeng, Manuha
Vancha, Akarshan Sajja, Chitta Baral
- Abstract要約: GQAは、現実世界の視覚的推論と構成的質問応答のためのデータセットである。
GQAデータセットの最良のビジョンモデルによって予測される多くの回答は、基礎的真実の答えと一致しないが、与えられたコンテキストにおいて意味的に意味があり正しい。
我々は,この制限に対処するために,既設のNLPツールを用いて自動生成する,地中回答の代替アンサーセット(AAS)を提案する。
- 参考スコア(独自算出の注目度): 11.299897008333241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GQA (Hudson and Manning, 2019) is a dataset for real-world visual reasoning
and compositional question answering. We found that many answers predicted by
the best visionlanguage models on the GQA dataset do not match the ground-truth
answer but still are semantically meaningful and correct in the given context.
In fact, this is the case with most existing visual question answering (VQA)
datasets where they assume only one ground-truth answer for each question. We
propose Alternative Answer Sets (AAS) of ground-truth answers to address this
limitation, which is created automatically using off-the-shelf NLP tools. We
introduce a semantic metric based on AAS and modify top VQA solvers to support
multiple plausible answers for a question. We implement this approach on the
GQA dataset and show the performance improvements.
- Abstract(参考訳): GQA (Hudson and Manning, 2019) は、現実の視覚的推論と構成的質問応答のためのデータセットである。
GQAデータセット上で最高の視覚言語モデルによって予測される多くの回答は、基礎的真実の答えと一致しないが、与えられた文脈において意味的に意味があり正しい。
実際、ほとんどの既存の視覚的質問応答(VQA)データセットでは、各質問に対して1つの根本的回答しか想定していない。
我々は,この制限に対処するために,既設のNLPツールを用いて自動生成する,地中回答の代替アンサーセット(AAS)を提案する。
AASに基づくセマンティックメトリックを導入し、トップVQAソルバを修正して、質問に対する複数の妥当な回答をサポートする。
このアプローチをGQAデータセットに実装し、性能改善を示す。
関連論文リスト
- Fully Authentic Visual Question Answering Dataset from Online Communities [72.0524198499719]
VQA(Visual Question Answering)は、画像に関する質問に答える機能である。
VQAデータセットは、すべてのコンテンツが真正のユースケースから生まれたものである。
このデータセットと8つの主流VQAデータセットとの関係を特徴付ける。
論文 参考訳(メタデータ) (2023-11-27T06:19:00Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - VANiLLa : Verbalized Answers in Natural Language at Large Scale [2.9098477555578333]
このデータセットは、CSQAとSimpleQuestionsWikidataデータセットから適応された100万以上の単純な質問で構成されている。
このデータセットの回答文は、三つの事実よりも構文的に、意味的に質問に近い。
論文 参考訳(メタデータ) (2021-05-24T16:57:54Z) - Unsupervised Evaluation for Question Answering with Transformers [46.16837670041594]
本稿では, トランスフォーマーに基づくQAアーキテクチャにおける質問, 回答, コンテキストの隠蔽表現について検討する。
回答表現における一貫したパターンを観察し、予測された回答が正しいかどうかを自動的に評価することができることを示す。
私たちはモデルの解答が正解かどうかを、SQuADの91.37%、SubjQAの80.7%の精度で予測することができる。
論文 参考訳(メタデータ) (2020-10-07T07:03:30Z) - IQ-VQA: Intelligent Visual Question Answering [3.09911862091928]
ルールベースデータセット上で,VQAモデルの一貫性を15%向上することを示す。
また,視覚と言語に対するマルチモーダル理解が向上するアテンションマップの改良を定量的に示す。
論文 参考訳(メタデータ) (2020-07-08T20:41:52Z) - Fluent Response Generation for Conversational Question Answering [15.826109118064716]
本稿では,SEQ2SEQ NLGアプローチで応答をシチュレートする手法を提案する。
我々は、エンドツーエンドシステムのトレーニングデータを生成するためにデータ拡張を使用します。
論文 参考訳(メタデータ) (2020-05-21T04:57:01Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。