論文の概要: Guiding Visual Question Generation
- arxiv url: http://arxiv.org/abs/2110.08226v1
- Date: Fri, 15 Oct 2021 17:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 12:31:23.005259
- Title: Guiding Visual Question Generation
- Title(参考訳): 視覚的質問生成の指導
- Authors: Nihir Vedd, Zixu Wang, Marek Rei, Yishu Miao and Lucia Specia
- Abstract要約: 従来の視覚質問生成(VQG)では、ほとんどの画像は、質問を生成できる複数の概念を持っている。
本稿では,カテゴリ情報に基づいて質問生成を行うVQGの変種である案内視覚質問生成について述べる。
- 参考スコア(独自算出の注目度): 40.56637275354495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In traditional Visual Question Generation (VQG), most images have multiple
concepts (e.g. objects and categories) for which a question could be generated,
but models are trained to mimic an arbitrary choice of concept as given in
their training data. This makes training difficult and also poses issues for
evaluation -- multiple valid questions exist for most images but only one or a
few are captured by the human references. We present Guiding Visual Question
Generation - a variant of VQG which conditions the question generator on
categorical information based on expectations on the type of question and the
objects it should explore. We propose two variants: (i) an explicitly guided
model that enables an actor (human or automated) to select which objects and
categories to generate a question for; and (ii) an implicitly guided model that
learns which objects and categories to condition on, based on discrete latent
variables. The proposed models are evaluated on an answer-category augmented
VQA dataset and our quantitative results show a substantial improvement over
the current state of the art (over 9 BLEU-4 increase). Human evaluation
validates that guidance helps the generation of questions that are
grammatically coherent and relevant to the given image and objects.
- Abstract(参考訳): 従来の視覚質問生成(VQG)では、ほとんどの画像は、質問を生成できる複数の概念(オブジェクトやカテゴリなど)を持っているが、モデルはトレーニングデータに与えられた任意の概念の選択を模倣するように訓練されている。
これはトレーニングを難しくし、評価のために問題を引き起こす -- 多くの画像には複数の有効な質問が存在するが、人間の参照によってキャプチャされるのは1つか数つだけだ。
本稿では,質問の種類や探索すべき対象に対する期待に基づいてカテゴリ情報に基づいて質問生成を条件とするvqgの変種である視覚質問生成の指導を行う。
我々は2つの変種を提案します
(i)アクタ(人間又は自動化)が質問を生成する対象及びカテゴリを選択することを可能にする明示的な誘導モデル
(ii)離散潜在変数に基づいて条件付けする対象とカテゴリを学習する暗黙的に導かれたモデル。
提案モデルは,回答カテゴリー拡張型vqaデータセット上で評価され,その評価結果から,現在(bleu-4増加率9。
人間の評価は、ガイダンスが文法的に一貫性があり、与えられた画像やオブジェクトに関連する質問を生成するのに役立つことを検証する。
関連論文リスト
- A Comprehensive Survey on Visual Question Answering Datasets and Algorithms [1.941892373913038]
我々は、VQAデータセットとモデルの現状を慎重に分析し、それらを異なるカテゴリにきれいに分割し、各カテゴリの方法論と特徴を要約する。
VQAモデルの6つの主要なパラダイムを探求する。融合、注意、あるモードからの情報を用いて、別のモードからの情報をフィルタリングする技法、外部知識ベース、構成または推論、グラフモデルである。
論文 参考訳(メタデータ) (2024-11-17T18:52:06Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Visual Question Generation in Bengali [0.0]
我々は,ベンガル語で画像が与えられたときに質問を生成するトランスフォーマーベースのエンコーダデコーダアーキテクチャを開発した。
ベンガル語で視覚質問生成タスクのためのアートモデルの最初の状態を確立する。
その結果,画像キャットモデルではBLUE-1スコアが33.12,BLEU-3スコアが7.56であった。
論文 参考訳(メタデータ) (2023-10-12T10:26:26Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Latent Variable Models for Visual Question Answering [34.9601948665926]
視覚質問応答に対する潜在変数モデルを提案する。
余分な情報(例)
キャプションと回答カテゴリ)は推論を改善するために潜在変数として組み込まれます。
VQA v2.0ベンチマークデータセットの実験は、提案されたモデルの有効性を示している。
論文 参考訳(メタデータ) (2021-01-16T08:21:43Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。