論文の概要: C3VQG: Category Consistent Cyclic Visual Question Generation
- arxiv url: http://arxiv.org/abs/2005.07771v5
- Date: Sat, 9 Jan 2021 14:26:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 23:18:06.862460
- Title: C3VQG: Category Consistent Cyclic Visual Question Generation
- Title(参考訳): C3VQG: カテゴリー一貫性の周期的視覚的質問生成
- Authors: Shagun Uppal, Anish Madan, Sarthak Bhagat, Yi Yu, Rajiv Ratn Shah
- Abstract要約: 視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
- 参考スコア(独自算出の注目度): 51.339348810676896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Generation (VQG) is the task of generating natural questions
based on an image. Popular methods in the past have explored image-to-sequence
architectures trained with maximum likelihood which have demonstrated
meaningful generated questions given an image and its associated ground-truth
answer. VQG becomes more challenging if the image contains rich contextual
information describing its different semantic categories. In this paper, we try
to exploit the different visual cues and concepts in an image to generate
questions using a variational autoencoder (VAE) without ground-truth answers.
Our approach solves two major shortcomings of existing VQG systems: (i)
minimize the level of supervision and (ii) replace generic questions with
category relevant generations. Most importantly, by eliminating expensive
answer annotations, the required supervision is weakened. Using different
categories enables us to exploit different concepts as the inference requires
only the image and the category. Mutual information is maximized between the
image, question, and answer category in the latent space of our VAE. A novel
category consistent cyclic loss is proposed to enable the model to generate
consistent predictions with respect to the answer category, reducing
redundancies and irregularities. Additionally, we also impose supplementary
constraints on the latent space of our generative model to provide structure
based on categories and enhance generalization by encapsulating decorrelated
features within each dimension. Through extensive experiments, the proposed
model, C3VQG outperforms state-of-the-art VQG methods with weak supervision.
- Abstract(参考訳): 視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
過去のポピュラーな手法は、画像とその関連する接地真実の答えを有意義に生成した質問を示す最大可能性で訓練されたイメージ・ツー・シーケンスアーキテクチャを探索してきた。
VQGは、画像にその異なるセマンティックカテゴリを記述するリッチなコンテキスト情報が含まれていると、さらに困難になる。
本稿では,画像中の異なる視覚的な手がかりと概念を活用し,接地正答のない変分オートエンコーダ(vae)を用いて質問を生成する。
我々のアプローチは、既存のVQGシステムの2つの大きな欠点を解決する。
(i)監督のレベルを最小化し、
(ii)一般的な質問をカテゴリ関連世代に置き換える。
最も重要なことは、高価な応答アノテーションを削除することで、必要な監視が弱まることです。
異なるカテゴリを使用することで、推論は画像とカテゴリのみを必要とするため、異なる概念を活用できる。
VAEの潜伏空間における画像,質問,回答のカテゴリ間で相互情報を最大化する。
モデルが解答カテゴリに対して一貫した予測を生成できるように、新しいカテゴリー一貫した循環損失を提案し、冗長性と不規則性を低減した。
さらに,生成モデルの潜在空間に補足的制約を課し,カテゴリに基づく構造を提供し,各次元における非相関特徴をカプセル化することによって一般化を強化する。
提案したモデルであるC3VQGは、広範囲にわたる実験により、最先端のVQG法よりも低い監督力を持つ。
関連論文リスト
- QTG-VQA: Question-Type-Guided Architectural for VideoQA Systems [3.486120902611884]
本稿では,VQAシステムにおける様々な質問タイプの重要性と,その性能への影響について考察する。
本稿では,QTG-VQAを提案する。QTG-VQAは,質問型誘導型注意と適応学習機構を組み込んだ新しいアーキテクチャである。
論文 参考訳(メタデータ) (2024-09-14T07:42:41Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - ConVQG: Contrastive Visual Question Generation with Multimodal Guidance [20.009626292937995]
本研究では,コントラスト的視覚質問生成(ConVQG)を提案し,画像的,テキスト的,知識に富んだ質問を生成する。
知識認識と標準VQGベンチマークの実験は、ConVQGが最先端の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-02-20T09:20:30Z) - Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation [64.64849950642619]
テキスト・ツー・イメージ・モデルを評価するための形式的意味論にインスパイアされた評価フレームワークを開発する。
Davidsonian Scene Graph (DSG) が依存性グラフにまとめられた原子的およびユニークな質問を生成することを示す。
また,1060個のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。
論文 参考訳(メタデータ) (2023-10-27T16:20:10Z) - Guiding Visual Question Generation [40.56637275354495]
従来の視覚質問生成(VQG)では、ほとんどの画像は、質問を生成できる複数の概念を持っている。
本稿では,カテゴリ情報に基づいて質問生成を行うVQGの変種である案内視覚質問生成について述べる。
論文 参考訳(メタデータ) (2021-10-15T17:38:08Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - Understanding Knowledge Gaps in Visual Question Answering: Implications
for Gap Identification and Testing [20.117014315684287]
我々は、知識ギャップ(KG)の分類を用いて、質問を1つまたは複数のタイプのKGでタグ付けする。
次に,各KGに対する質問の分布のスキューについて検討する。
これらの新しい質問は、既存のVQAデータセットに追加することで、質問の多様性を高め、スキューを減らすことができる。
論文 参考訳(メタデータ) (2020-04-08T00:27:43Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。