論文の概要: IconQA: A New Benchmark for Abstract Diagram Understanding and Visual
Language Reasoning
- arxiv url: http://arxiv.org/abs/2110.13214v1
- Date: Mon, 25 Oct 2021 18:52:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 11:12:32.640282
- Title: IconQA: A New Benchmark for Abstract Diagram Understanding and Visual
Language Reasoning
- Title(参考訳): IconQA: 抽象ダイアグラム理解とビジュアル言語推論のための新しいベンチマーク
- Authors: Pan Lu, Liang Qiu, Jiaqi Chen, Tony Xia, Yizhou Zhao, Wei Zhang, Zhou
Yu, Xiaodan Liang, Song-Chun Zhu
- Abstract要約: IconQA(Icon Question Answering)の新たな課題を紹介する。
IconQAは107,439の質問と3つのサブタスクからなる大規模なデータセットである。
さらに、377クラスに645,687色のアイコンを含むアイコンデータセットIcon645をリリースしました。
- 参考スコア(独自算出の注目度): 132.49090098391258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current visual question answering (VQA) tasks mainly consider answering
human-annotated questions for natural images. However, aside from natural
images, abstract diagrams with semantic richness are still understudied in
visual understanding and reasoning research. In this work, we introduce a new
challenge of Icon Question Answering (IconQA) with the goal of answering a
question in an icon image context. We release IconQA, a large-scale dataset
that consists of 107,439 questions and three sub-tasks: multi-image-choice,
multi-text-choice, and filling-in-the-blank. The IconQA dataset is inspired by
real-world diagram word problems that highlight the importance of abstract
diagram understanding and comprehensive cognitive reasoning. Thus, IconQA
requires not only perception skills like object recognition and text
understanding, but also diverse cognitive reasoning skills, such as geometric
reasoning, commonsense reasoning, and arithmetic reasoning. To facilitate
potential IconQA models to learn semantic representations for icon images, we
further release an icon dataset Icon645 which contains 645,687 colored icons on
377 classes. We conduct extensive user studies and blind experiments and
reproduce a wide range of advanced VQA methods to benchmark the IconQA task.
Also, we develop a strong IconQA baseline Patch-TRM that applies a pyramid
cross-modal Transformer with input diagram embeddings pre-trained on the icon
dataset. IconQA and Icon645 are available at https://iconqa.github.io.
- Abstract(参考訳): 現在の視覚的質問応答(VQA)タスクは主に自然画像に対する人間の注釈付き質問に答えることを検討する。
しかし、自然画像は別として、セマンティックな豊かさを持つ抽象図は、視覚理解と推論研究においてまだ未熟である。
本研究は,アイコン画像コンテキストにおける質問に回答することを目的としたIcon Question Answering (IconQA) の新たな課題を紹介する。
IconQAは107,439の質問と3つのサブタスクからなる大規模なデータセットである。
IconQAデータセットは、抽象図理解と包括的認知推論の重要性を強調する実世界の図式単語問題にインスパイアされている。
したがって、IconQAは、物体認識やテキスト理解のような知覚スキルだけでなく、幾何学的推論、常識的推論、算術的推論といった多様な認知的推論スキルも要求する。
さらに、377のクラスに645,687色のアイコンを含むアイコンデータセットIcon645をリリースする。
IconQAタスクをベンチマークするために、幅広いユーザ研究とブラインド実験を行い、幅広い高度なVQA手法を再現する。
また,アイコンデータセットに予め学習した入力ダイアグラムを組み込んだピラミッドクロスモーダルトランスを用いた強力なIconQAベースラインPatch-TRMを開発した。
iconqa と icon645 は https://iconqa.github.io で入手できる。
関連論文リスト
- SimpsonsVQA: Enhancing Inquiry-Based Learning with a Tailored Dataset [11.729464930866483]
シンプソンズVQA』(シンプソンズVQA)は、ザ・シンプソンズのテレビ番組から派生したVQAの新しいデータセットである。
従来のVQAタスクだけでなく、画像に関連する無関係な質問を識別するように設計されている。
SimpsonsVQAには、約23Kの画像、166KのQAペア、500Kの判定が含まれている。
論文 参考訳(メタデータ) (2024-10-30T02:30:40Z) - Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts? [62.984473889987605]
本稿では,大規模言語モデルとVQA(Visual Question Answering)システムを活用した,視覚概念学習のためのゼロショットフレームワークを提案する。
VQAシステムに問い合わせ画像とともにこれらの質問を行い、回答を集約し、テスト画像中のオブジェクトの有無を判定する。
実験では,既存のゼロショット視覚分類法や少数ショット概念学習手法と同等の性能を示した。
論文 参考訳(メタデータ) (2024-10-17T15:16:10Z) - COLUMBUS: Evaluating COgnitive Lateral Understanding through Multiple-choice reBUSes [14.603382370403]
視覚的側方思考を多選択質問応答タスクとして定式化する。
タスク例をインスタンス化するための3段階の分類駆動手法について述べる。
テキストとアイコンのリバスパズルを用いたQAセット作成にタスクパイプラインを適用した総合ベンチマークであるCOLUMBUSを開発した。
論文 参考訳(メタデータ) (2024-09-06T06:49:55Z) - Cross-Modal Contrastive Learning for Robust Reasoning in VQA [76.1596796687494]
視覚的質問応答(VQA)におけるマルチモーダル推論は,近年急速に進展している。
ほとんどの推論モデルは、トレーニングデータから学んだショートカットに大きく依存しています。
本稿では,ショートカット推論の除去を目的とした,単純だが効果的なクロスモーダル・コントラスト学習戦略を提案する。
論文 参考訳(メタデータ) (2022-11-21T05:32:24Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - REXUP: I REason, I EXtract, I UPdate with Structured Compositional
Reasoning for Visual Question Answering [4.02726934790798]
視覚構造を意識したテキスト情報を用いた深部推論VQAモデルを提案する。
REXUPネットワークは、画像オブジェクト指向とシーングラフ指向の2つのブランチで構成され、超対角融合合成注意ネットワークと協調して動作する。
私たちの最高のモデルは、検証セットに92.7%、テストデブセットに73.1%を提供する、貴重な最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2020-07-27T00:54:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。