論文の概要: UNK-VQA: A Dataset and A Probe into Multi-modal Large Models' Abstention
Ability
- arxiv url: http://arxiv.org/abs/2310.10942v2
- Date: Sat, 28 Oct 2023 06:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 19:34:13.857174
- Title: UNK-VQA: A Dataset and A Probe into Multi-modal Large Models' Abstention
Ability
- Title(参考訳): unk-vqa:マルチモーダル大規模モデルの回避能力に関するデータセットとプローブ
- Authors: Yanyang Guo and Fangkai Jiao and Zhiqi Shen and Liqiang Nie and Mohan
Kankanhalli
- Abstract要約: 本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
- 参考スコア(独自算出の注目度): 51.812099161015745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Teaching Visual Question Answering (VQA) models to refrain from answering
unanswerable questions is necessary for building a trustworthy AI system.
Existing studies, though have explored various aspects of VQA but somewhat
ignored this particular attribute. This paper aims to bridge the research gap
by contributing a comprehensive dataset, called UNK-VQA. The dataset is
specifically designed to address the challenge of questions that models do not
know. To this end, we first augment the existing data via deliberate
perturbations on either the image or question. In specific, we carefully ensure
that the question-image semantics remain close to the original unperturbed
distribution. By this means, the identification of unanswerable questions
becomes challenging, setting our dataset apart from others that involve mere
image replacement. We then extensively evaluate the zero- and few-shot
performance of several emerging multi-modal large models and discover their
significant limitations when applied to our dataset. Additionally, we also
propose a straightforward method to tackle these unanswerable questions. This
dataset, we believe, will serve as a valuable benchmark for enhancing the
abstention capability of VQA models, thereby leading to increased
trustworthiness of AI systems. We have made the
\href{https://github.com/guoyang9/UNK-VQA}{dataset} available to facilitate
further exploration in this area.
- Abstract(参考訳): 信頼できるAIシステムを構築するためには、VQA(Visual Question Answering)モデルに、解決不可能な質問に答えることを控えるよう教える必要がある。
現存する研究は、VQAの様々な側面を探求してきたが、この特質を幾らか無視した。
本稿では,UNK-VQAと呼ばれる包括的データセットを提供することで,研究ギャップを埋めることを目的とする。
データセットは、モデルが知らない問題に対処するように設計されている。
この目的のために、私たちはまず、画像または疑問に対して意図的に摂動することで既存のデータを拡張します。
具体的には、質問画像のセマンティクスが元の未摂動分布に近いことを慎重に確認する。
これはつまり、解決不可能な質問の識別が難しくなり、単なる画像置換を含む他の問題とデータセットを分離します。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショットと少数ショットのパフォーマンスを広範囲に評価し,データセットに適用した場合に,それらの重要な制限を見出す。
また,これらの疑問に対処するための簡単な手法も提案する。
このデータセットは、VQAモデルの禁断能力を高めるための貴重なベンチマークとなり、それによってAIシステムの信頼性が向上すると考えています。
我々は、この領域のさらなる探索を容易にするために、 \href{https://github.com/guoyang9/UNK-VQA}{dataset} を利用可能にした。
関連論文リスト
- Generative Visual Question Answering [0.0]
本稿では、時間的一般化の成果を得られる高度な視覚質問回答(VQA)モデルを作成するための実行可能なアプローチについて論じる。
我々は,VQAv2およびMS-COCOデータセットの画像とキャプションを利用して,安定拡散による新しい画像を生成する新しいデータセットGenVQAを提案する。
パフォーマンス評価では、オリジナルのVQAv2データセットを反映した質問に焦点が当てられ、回答は新しいイメージに調整されている。
論文 参考訳(メタデータ) (2023-07-18T05:30:23Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly [100.60560477391732]
我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
論文 参考訳(メタデータ) (2022-04-28T16:51:27Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - IQ-VQA: Intelligent Visual Question Answering [3.09911862091928]
ルールベースデータセット上で,VQAモデルの一貫性を15%向上することを示す。
また,視覚と言語に対するマルチモーダル理解が向上するアテンションマップの改良を定量的に示す。
論文 参考訳(メタデータ) (2020-07-08T20:41:52Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。