論文の概要: Unanswerable Visual Question Answering
- arxiv url: http://arxiv.org/abs/2310.10942v1
- Date: Tue, 17 Oct 2023 02:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-10-18 18:03:09.464825
- Title: Unanswerable Visual Question Answering
- Title(参考訳): 不可解な視覚的質問に対する答え
- Authors: Yanyang Guo and Fangkai Jiao and Zhiqi Shen and Liqiang Nie and Mohan
Kankanhalli
- Abstract要約: VQA(Visual Question Answering)モデルに、解決不可能な質問の排除を教えることは、信頼できるAIシステムを構築する上で不可欠である。
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
データセットは特に、解決不可能な質問の課題に対処するために設計されている。
- 参考スコア(独自算出の注目度): 51.812099161015745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Teaching Visual Question Answering (VQA) models to abstain from unanswerable
questions is indispensable for building a trustworthy AI system. Existing
studies, though have explored various aspects of VQA, yet marginally ignored
this particular attribute. This paper aims to bridge the research gap by
contributing a comprehensive dataset, called UNK-VQA. The dataset is
specifically designed to address the challenge of questions that can be
unanswerable. To this end, we first augment the existing data via deliberate
perturbations on either the image or question. In specific, we carefully ensure
that the question-image semantics remain close to the original unperturbed
distribution. By means of this, the identification of unanswerable questions
becomes challenging, setting our dataset apart from others that involve mere
image replacement. We then extensively evaluate the zero- and few-shot
performance of several emerging multi-modal large models and discover
significant limitations of them when applied to our dataset. Additionally, we
also propose a straightforward method to tackle these unanswerable questions.
This dataset, we believe, will serve as a valuable benchmark for enhancing the
abstention capability of VQA models, thereby leading to increased
trustworthiness of AI systems.
- Abstract(参考訳): VQA(Visual Question Answering)モデルは、信頼できるAIシステムを構築する上で不可欠である。
現存する研究はVQAの様々な側面を探求しているが、この特質は無視されている。
本稿では,UNK-VQAと呼ばれる包括的データセットを提供することで,研究ギャップを埋めることを目的とする。
データセットは、不可解な質問の課題に対処するために特別に設計されている。
この目的のために、私たちはまず、画像または疑問に対して意図的に摂動することで既存のデータを拡張します。
具体的には、質問画像のセマンティクスが元の未摂動分布に近いことを慎重に確認する。
これにより、解決不可能な質問の識別が難しくなり、単なる画像置換を含む他の問題とデータセットを分離する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショットと少数ショットのパフォーマンスを広範囲に評価し,データセットに適用した場合に,その重要な限界を見出す。
また,これらの疑問に対処するための簡単な手法も提案する。
このデータセットは、VQAモデルの禁断能力を高めるための貴重なベンチマークとなり、それによってAIシステムの信頼性が向上すると考えています。
関連論文リスト
- Generative Visual Question Answering [0.0]
本稿では、時間的一般化の成果を得られる高度な視覚質問回答(VQA)モデルを作成するための実行可能なアプローチについて論じる。
我々は,VQAv2およびMS-COCOデータセットの画像とキャプションを利用して,安定拡散による新しい画像を生成する新しいデータセットGenVQAを提案する。
パフォーマンス評価では、オリジナルのVQAv2データセットを反映した質問に焦点が当てられ、回答は新しいイメージに調整されている。
論文 参考訳(メタデータ) (2023-07-18T05:30:23Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly [100.60560477391732]
我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
論文 参考訳(メタデータ) (2022-04-28T16:51:27Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - IQ-VQA: Intelligent Visual Question Answering [3.09911862091928]
ルールベースデータセット上で,VQAモデルの一貫性を15%向上することを示す。
また,視覚と言語に対するマルチモーダル理解が向上するアテンションマップの改良を定量的に示す。
論文 参考訳(メタデータ) (2020-07-08T20:41:52Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。