論文の概要: Fully Authentic Visual Question Answering Dataset from Online
Communities
- arxiv url: http://arxiv.org/abs/2311.15562v1
- Date: Mon, 27 Nov 2023 06:19:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:06:56.260893
- Title: Fully Authentic Visual Question Answering Dataset from Online
Communities
- Title(参考訳): オンラインコミュニティからの完全な視覚的質問応答データセット
- Authors: Chongyan Chen, Mengchen Liu, Noel Codella, Yunsheng Li, Lu Yuan, Danna
Gurari
- Abstract要約: VQAデータセットは、すべてのコンテンツが真正のユースケースから生まれたものである。
データセットと、それが他の8つのVQAデータセットとどのように関連しているかを特徴付けます。
将来的な拡張を容易にするために、データセットをまもなくリリースします。
- 参考スコア(独自算出の注目度): 76.34788403743514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Question Answering (VQA) entails answering questions about images. We
introduce the first VQA dataset in which all contents originate from an
authentic use case. Sourced from online question answering community forums, we
call it VQAonline. We then characterize our dataset and how it relates to eight
other VQA datasets. Observing that answers in our dataset tend to be much
longer (e.g., with a mean of 173 words) and thus incompatible with standard VQA
evaluation metrics, we next analyze which of the six popular metrics for longer
text evaluation align best with human judgments. We then use the best-suited
metrics to evaluate six state-of-the-art vision and language foundation models
on VQAonline and reveal where they struggle most. We will release the dataset
soon to facilitate future extensions.
- Abstract(参考訳): VQA(Visual Question Answering)は、画像に関する質問に答える機能である。
VQAデータセットは、すべてのコンテンツが真正のユースケースから生まれたものである。
オンラインの質問応答コミュニティフォーラムから引用して、VQAonlineと呼ぶ。
次に、データセットと、他の8つのvqaデータセットとの関係を特徴付ける。
データセットの回答はもっと長い(平均173語)ので、標準的なVQA評価指標と互換性がないため、テキスト評価を長くするための6つの一般的な指標のうちどれが人間の判断に最も適しているかを次に分析する。
次に、最も適したメトリクスを使用して、VQAonline上で6つの最先端のビジョンと言語基盤モデルを評価し、最も苦労している場所を明らかにします。
将来的な拡張を容易にするために、データセットをまもなくリリースします。
関連論文リスト
- Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution
Generalization of VQA Models [47.64219291655723]
我々は,VQAモデルの限界を押し上げるために,BinaryVQA(BinaryVQA)と呼ばれる視覚的質問応答のための新しいテストセットを導入する。
私たちのデータセットには1,024のイメージに7,800の質問が含まれており、さまざまなオブジェクト、トピック、コンセプトをカバーしています。
質問の約63%は肯定的な回答を持っている。
論文 参考訳(メタデータ) (2023-01-28T00:03:44Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly [100.60560477391732]
我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
論文 参考訳(メタデータ) (2022-04-28T16:51:27Z) - Grounding Answers for Visual Questions Asked by Visually Impaired People [16.978747012406266]
VizWiz-VQA-Groundingは、視覚障害者が質問する視覚的質問に答えを視覚的に根拠付ける最初のデータセットである。
データセットを分析し、それを5つのVQA-Groundingデータセットと比較し、類似点と異なる点を実証します。
論文 参考訳(メタデータ) (2022-02-04T06:47:16Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - 'Just because you are right, doesn't mean I am wrong': Overcoming a
Bottleneck in the Development and Evaluation of Open-Ended Visual Question
Answering (VQA) Tasks [11.299897008333241]
GQAは、現実世界の視覚的推論と構成的質問応答のためのデータセットである。
GQAデータセットの最良のビジョンモデルによって予測される多くの回答は、基礎的真実の答えと一致しないが、与えられたコンテキストにおいて意味的に意味があり正しい。
我々は,この制限に対処するために,既設のNLPツールを用いて自動生成する,地中回答の代替アンサーセット(AAS)を提案する。
論文 参考訳(メタデータ) (2021-03-28T00:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。