論文の概要: Generating Natural Questions from Images for Multimodal Assistants
- arxiv url: http://arxiv.org/abs/2012.03678v1
- Date: Tue, 17 Nov 2020 19:12:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 15:38:20.008571
- Title: Generating Natural Questions from Images for Multimodal Assistants
- Title(参考訳): マルチモーダルアシスタントのための画像からの自然質問の生成
- Authors: Alkesh Patel, Akanksha Bindal, Hadas Kotek, Christopher Klein, Jason
Williams
- Abstract要約: 本稿では,画像の内容やメタデータを考慮した多様で意味のある質問を生成するためのアプローチを提案する。
BLEU, METEOR, ROUGE, CIDEr などの標準評価指標を用いて,本手法の評価を行った。
- 参考スコア(独自算出の注目度): 4.930442416763205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating natural, diverse, and meaningful questions from images is an
essential task for multimodal assistants as it confirms whether they have
understood the object and scene in the images properly. The research in visual
question answering (VQA) and visual question generation (VQG) is a great step.
However, this research does not capture questions that a visually-abled person
would ask multimodal assistants. Recently published datasets such as KB-VQA,
FVQA, and OK-VQA try to collect questions that look for external knowledge
which makes them appropriate for multimodal assistants. However, they still
contain many obvious and common-sense questions that humans would not usually
ask a digital assistant. In this paper, we provide a new benchmark dataset that
contains questions generated by human annotators keeping in mind what they
would ask multimodal digital assistants. Large scale annotations for several
hundred thousand images are expensive and time-consuming, so we also present an
effective way of automatically generating questions from unseen images. In this
paper, we present an approach for generating diverse and meaningful questions
that consider image content and metadata of image (e.g., location, associated
keyword). We evaluate our approach using standard evaluation metrics such as
BLEU, METEOR, ROUGE, and CIDEr to show the relevance of generated questions
with human-provided questions. We also measure the diversity of generated
questions using generative strength and inventiveness metrics. We report new
state-of-the-art results on the public and our datasets.
- Abstract(参考訳): 画像から自然で多様で有意義な質問を生成することは、画像のオブジェクトやシーンを適切に理解したかどうかを確認するため、マルチモーダルアシスタントにとって必須のタスクである。
視覚的質問応答(VQA)と視覚的質問生成(VQG)の研究は大きなステップである。
しかし、この研究は視覚障害者がマルチモーダルアシスタントに尋ねる疑問を捉えていない。
最近発表されたKB-VQA、FVQA、OK-VQAといったデータセットは、外部知識を求める質問を集めようとする。
しかしそれでも、人間が通常デジタルアシスタントを問わない、明白で常識的な質問が数多く含まれている。
本稿では,人間のアノテータが生成した質問を,マルチモーダルデジタルアシスタントに何を尋ねるかを念頭に置いて,新しいベンチマークデータセットを提供する。
数十万の画像に対する大規模なアノテーションは高価で時間を要するため、未知の画像から質問を自動的に生成する効果的な方法も提示する。
本稿では,画像の内容とメタデータ(例えば位置,関連キーワード)を考慮した多様で有意義な質問を生成する手法を提案する。
bleu,meteor,rouge,ciderなどの標準評価指標を用いて,生成した質問と人間による質問との関連性を評価する。
また,生成した質問の多様性を,生成力と創造性指標を用いて測定する。
我々は最新の成果を公開とデータセットで報告する。
関連論文リスト
- Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge [10.074327344317116]
我々は、堅牢な相互モダリティ推論能力を持つAIモデルを装備するためのQ&A Promptsを提案する。
まず、視覚的質問生成モデルの入力と出力として、画像と回答のペアと対応する質問をトレーニングセットとして使用する。
次に、画像タグモデルを用いて様々なインスタンスを識別し、パッケージ化された画像タグペアを視覚質問生成モデルに送信し、抽出した画像タグと関連する質問を回答として生成する。
論文 参考訳(メタデータ) (2024-01-19T14:22:29Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual
Question Answering in Vietnamese [2.7528170226206443]
ベトナム初の視覚的質問応答のための大規模データセットであるOpenViVQAデータセットを紹介する。
データセットは37,000以上の質問応答ペア(QA)に関連付けられた11,000以上の画像で構成されている。
提案手法は,SAAA,MCAN,LORA,M4CなどのSOTAモデルと競合する結果が得られる。
論文 参考訳(メタデータ) (2023-05-07T03:59:31Z) - ChiQA: A Large Scale Image-based Real-World Question Answering Dataset
for Multi-Modal Understanding [42.5118058527339]
ChiQAには40万以上の質問と200万以上の質問イメージのペアが含まれている。
ChiQAは、接地、比較、読みなど、言語と視覚の両方を深く理解する必要がある。
ALBEFのような最先端のビジュアル言語モデルを評価し,ChiQAの改善の余地がまだ大きいことを実証した。
論文 参考訳(メタデータ) (2022-08-05T07:55:28Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z) - MMIU: Dataset for Visual Intent Understanding in Multimodal Assistants [4.322454918650574]
MMIU(MultiModal Intent Understanding)と呼ばれる新しいデータセットは、画像を見ながら人間のアノテータが提供する質問やそれに対応する意図を含む。
そして、このデータセットをマルチモーダルデジタルアシスタントの意図分類タスクに使用します。
論文 参考訳(メタデータ) (2021-10-13T00:57:05Z) - Visual Question Rewriting for Increasing Response Rate [12.700769102964088]
人からの回答率を改善するために、自然言語の質問を自動的に書き換える方法について検討する。
視覚的情報を用いて新しい質問を改善するために,視覚的質問書き換え(VQR)タスクが導入された。
論文 参考訳(メタデータ) (2021-06-04T04:46:47Z) - MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文 参考訳(メタデータ) (2021-04-13T09:14:28Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文 参考訳(メタデータ) (2020-08-27T08:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。