論文の概要: Multi-VQG: Generating Engaging Questions for Multiple Images
- arxiv url: http://arxiv.org/abs/2211.07441v1
- Date: Mon, 14 Nov 2022 15:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 15:52:44.050262
- Title: Multi-VQG: Generating Engaging Questions for Multiple Images
- Title(参考訳): マルチVQG:複数画像に対する拡張質問の生成
- Authors: Min-Hsuan Yeh, Vicent Chen, Ting-Hao (Kenneth) Haung, Lun-Wei Ku
- Abstract要約: 複数の画像から係わる質問を生成することを提案する。
結果は、画像シーケンスの背後にあるストーリーを構築することで、モデルが魅力的な質問を生成することができることを示している。
これらの結果は、視覚と言語モデルが、一連の写真の背後にあるストーリーを暗黙的に構築する上で、エキサイティングな挑戦を生み出します。
- 参考スコア(独自算出の注目度): 9.965853054511165
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generating engaging content has drawn much recent attention in the NLP
community. Asking questions is a natural way to respond to photos and promote
awareness. However, most answers to questions in traditional question-answering
(QA) datasets are factoids, which reduce individuals' willingness to answer.
Furthermore, traditional visual question generation (VQG) confines the source
data for question generation to single images, resulting in a limited ability
to comprehend time-series information of the underlying event. In this paper,
we propose generating engaging questions from multiple images. We present MVQG,
a new dataset, and establish a series of baselines, including both end-to-end
and dual-stage architectures. Results show that building stories behind the
image sequence enables models to generate engaging questions, which confirms
our assumption that people typically construct a picture of the event in their
minds before asking questions. These results open up an exciting challenge for
visual-and-language models to implicitly construct a story behind a series of
photos to allow for creativity and experience sharing and hence draw attention
to downstream applications.
- Abstract(参考訳): NLPコミュニティでは、エンゲージメントコンテンツの生成が注目されている。
質問は、写真に反応し、意識を高める自然な方法です。
しかし、従来のQAデータセットの質問に対する回答のほとんどはファクトイドであり、個人の回答意欲を低下させる。
さらに、従来の視覚的質問生成(VQG)は、質問生成のソースデータを単一の画像に閉じ込め、基礎となる事象の時系列情報を理解する能力に制限を与える。
本稿では,複数の画像から係わる質問を生成することを提案する。
我々は、新しいデータセットであるMVQGを紹介し、エンドツーエンドおよびデュアルステージアーキテクチャを含む一連のベースラインを確立する。
結果は、画像シーケンスの背後にストーリーを構築することで、モデルが興味をそそる質問を生成できることを示している。
これらの結果は、視覚と言語モデルが一連の写真の背後にあるストーリーを暗黙的に構築し、創造性と経験を共有することを可能にし、従って下流アプリケーションに注意を向ける、というエキサイティングな挑戦を開く。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge [10.074327344317116]
我々は、堅牢な相互モダリティ推論能力を持つAIモデルを装備するためのQ&A Promptsを提案する。
まず、視覚的質問生成モデルの入力と出力として、画像と回答のペアと対応する質問をトレーニングセットとして使用する。
次に、画像タグモデルを用いて様々なインスタンスを識別し、パッケージ化された画像タグペアを視覚質問生成モデルに送信し、抽出した画像タグと関連する質問を回答として生成する。
論文 参考訳(メタデータ) (2024-01-19T14:22:29Z) - FOLLOWUPQG: Towards Information-Seeking Follow-up Question Generation [38.78216651059955]
実世界の情報検索フォローアップ質問生成(FQG)の課題について紹介する。
オープンエンド質問に対するRedditフレンドリーな説明を提供するフォーラムレイマンから収集した,3K以上の実世界のデータセット(初期質問,回答,フォローアップ質問)であるFOLLOWUPQGを構築した。
既存のデータセットとは対照的に、FOLLOWUPQGの質問は情報を求めるためにより多様な実用的戦略を使用し、高次認知能力も示している。
論文 参考訳(メタデータ) (2023-09-10T11:58:29Z) - K-VQG: Knowledge-aware Visual Question Generation for Common-sense
Acquisition [64.55573343404572]
K-VQGと呼ばれる新しい知識対応VQGデータセットを提案する。
これは、画像に関する質問が構造化された知識に結びついている最初の大規模で人間の注釈付きデータセットである。
また,質問対象として知識をエンコードし,使用可能な新しいVQGモデルも開発している。
論文 参考訳(メタデータ) (2022-03-15T13:38:10Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Generating Natural Questions from Images for Multimodal Assistants [4.930442416763205]
本稿では,画像の内容やメタデータを考慮した多様で意味のある質問を生成するためのアプローチを提案する。
BLEU, METEOR, ROUGE, CIDEr などの標準評価指標を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2020-11-17T19:12:23Z) - Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文 参考訳(メタデータ) (2020-08-27T08:03:32Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。