論文の概要: ChiQA: A Large Scale Image-based Real-World Question Answering Dataset
for Multi-Modal Understanding
- arxiv url: http://arxiv.org/abs/2208.03030v1
- Date: Fri, 5 Aug 2022 07:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:12:03.867630
- Title: ChiQA: A Large Scale Image-based Real-World Question Answering Dataset
for Multi-Modal Understanding
- Title(参考訳): chiqa: マルチモーダル理解のための大規模イメージベース実世界質問応答データセット
- Authors: Bingning Wang, Feiyang Lv, Ting Yao, Yiming Yuan, Jin Ma, Yu Luo and
Haijin Liang
- Abstract要約: ChiQAには40万以上の質問と200万以上の質問イメージのペアが含まれている。
ChiQAは、接地、比較、読みなど、言語と視覚の両方を深く理解する必要がある。
ALBEFのような最先端のビジュアル言語モデルを評価し,ChiQAの改善の余地がまだ大きいことを実証した。
- 参考スコア(独自算出の注目度): 42.5118058527339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual question answering is an important task in both natural language and
vision understanding. However, in most of the public visual question answering
datasets such as VQA, CLEVR, the questions are human generated that specific to
the given image, such as `What color are her eyes?'. The human generated
crowdsourcing questions are relatively simple and sometimes have the bias
toward certain entities or attributes. In this paper, we introduce a new
question answering dataset based on image-ChiQA. It contains the real-world
queries issued by internet users, combined with several related open-domain
images. The system should determine whether the image could answer the question
or not. Different from previous VQA datasets, the questions are real-world
image-independent queries that are more various and unbiased. Compared with
previous image-retrieval or image-caption datasets, the ChiQA not only measures
the relatedness but also measures the answerability, which demands more
fine-grained vision and language reasoning. ChiQA contains more than 40K
questions and more than 200K question-images pairs. A three-level 2/1/0 label
is assigned to each pair indicating perfect answer, partially answer and
irrelevant. Data analysis shows ChiQA requires a deep understanding of both
language and vision, including grounding, comparisons, and reading. We evaluate
several state-of-the-art visual-language models such as ALBEF, demonstrating
that there is still a large room for improvements on ChiQA.
- Abstract(参考訳): 視覚的質問応答は、自然言語と視覚理解の両方において重要なタスクである。
しかしながら、VQAやCLEVRなどの一般の視覚的質問応答データセットでは、「彼女の目は何色か?」など、与えられた画像に特有の人間が生成する。
人間が生成したクラウドソーシングの質問は比較的単純で、特定の実体や属性に対する偏見を持つこともある。
本稿では,Image-ChiQAに基づく質問応答データセットを提案する。
インターネットユーザが発行する現実世界のクエリと、関連するいくつかのオープンドメインイメージが含まれている。
システムは、画像が質問に答えられるかどうかを判断する必要がある。
以前のVQAデータセットとは異なり、質問は現実のイメージに依存しないクエリで、より多様で偏りがない。
以前のイメージリトライバルやイメージキャプチャデータセットと比較すると、chiqaは関連性を測定するだけでなく、より詳細なビジョンと言語推論を要求する応答性を測定する。
ChiQAには40万以上の質問と200万以上の質問イメージが含まれている。
3レベル2/1/0ラベルは、完全回答、部分回答、無関係を示す各ペアに割り当てられる。
データ分析によると、ChiQAは接地、比較、読みなど、言語と視覚の両方を深く理解する必要がある。
ALBEFのような最先端のビジュアル言語モデルを評価し,ChiQAの改善の余地がまだ大きいことを示す。
関連論文リスト
- Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - Context-VQA: Towards Context-Aware and Purposeful Visual Question
Answering [17.675630617265288]
視覚的質問応答(VQA)は、インターネットをよりインタラクティブな方法でアクセスできるようにする可能性がある。
盲目または視力の低い人は、画像が現れるコンテキストを含む画像の説明を好む。
VQAモデルは、コンテキストを考慮に入れない限り、人々の要求を満たすために完全には成功しない、と私たちは主張する。
論文 参考訳(メタデータ) (2023-07-28T18:01:08Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Grounding Answers for Visual Questions Asked by Visually Impaired People [16.978747012406266]
VizWiz-VQA-Groundingは、視覚障害者が質問する視覚的質問に答えを視覚的に根拠付ける最初のデータセットである。
データセットを分析し、それを5つのVQA-Groundingデータセットと比較し、類似点と異なる点を実証します。
論文 参考訳(メタデータ) (2022-02-04T06:47:16Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z) - Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文 参考訳(メタデータ) (2020-08-27T08:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。