論文の概要: Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference
- arxiv url: http://arxiv.org/abs/2407.05100v1
- Date: Sat, 6 Jul 2024 15:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 21:08:14.136971
- Title: Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference
- Title(参考訳): 二重ヒントによる質問:回答の認識と地域参照による視覚的質問生成
- Authors: Kai Shen, Lingfei Wu, Siliang Tang, Fangli Xu, Bo Long, Yueting Zhuang, Jian Pei,
- Abstract要約: 本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
- 参考スコア(独自算出の注目度): 107.53380946417003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The visual question generation (VQG) task aims to generate human-like questions from an image and potentially other side information (e.g. answer type). Previous works on VQG fall in two aspects: i) They suffer from one image to many questions mapping problem, which leads to the failure of generating referential and meaningful questions from an image. ii) They fail to model complex implicit relations among the visual objects in an image and also overlook potential interactions between the side information and image. To address these limitations, we first propose a novel learning paradigm to generate visual questions with answer-awareness and region-reference. Concretely, we aim to ask the right visual questions with Double Hints - textual answers and visual regions of interests, which could effectively mitigate the existing one-to-many mapping issue. Particularly, we develop a simple methodology to self-learn the visual hints without introducing any additional human annotations. Furthermore, to capture these sophisticated relationships, we propose a new double-hints guided Graph-to-Sequence learning framework, which first models them as a dynamic graph and learns the implicit topology end-to-end, and then utilizes a graph-to-sequence model to generate the questions with double hints. Experimental results demonstrate the priority of our proposed method.
- Abstract(参考訳): 視覚的質問生成(VQG)タスクは、画像と潜在的に他の側面情報(例えば、回答タイプ)から人間のような質問を生成することを目的としている。
VQGに関する以前の研究は、以下の2つの側面に該当する。
一 一つの画像から多くの質問マッピング問題に苦しむことであって、画像から参照的、有意義な質問を生成するのに失敗すること。
二 画像内の視覚オブジェクト間の複雑な暗黙の関係をモデル化することができず、側面情報と画像間の潜在的な相互作用を見落としていること。
これらの制約に対処するために,我々はまず,応答認識と領域参照による視覚的質問を生成する新しい学習パラダイムを提案する。
具体的には,既存の一対多マッピング問題を効果的に軽減できるような,テキストによる回答や関心領域の視覚的領域といった,二重ヒントで適切な視覚的質問を行うことを目指している。
特に,人間のアノテーションを付加せずに視覚的ヒントを自己学習する簡単な手法を開発した。
さらに、これらの高度な関係を捉えるために、まずそれらを動的グラフとしてモデル化し、暗黙のトポロジーをエンドツーエンドに学習し、次にグラフからシーケンスモデルを用いて二重ヒントで質問を生成する、新しいダブルヒンツガイド付きグラフからシーケンス学習フレームワークを提案する。
実験の結果,提案手法の優先度が示された。
関連論文リスト
- Weakly Supervised Visual Question Answer Generation [2.7605547688813172]
視覚情報とキャプションから手続き的に質問応答対を合成的に生成する弱教師付き手法を提案する。
我々は,VQAデータセットの総合的な実験分析を行い,BLEUスコアのSOTA手法を著しく上回る結果を得た。
論文 参考訳(メタデータ) (2023-06-11T08:46:42Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Bridge to Answer: Structure-aware Graph Interaction Network for Video
Question Answering [56.65656211928256]
本稿では,ある映像に対する質問に対する正しい回答を推測する新しい手法である「回答のためのブリッジ」を提案する。
映像と問合せの関係を利用して,問答間インタラクションを用いて各視覚ノードを有効化することにより,質問条件付きビジュアルグラフを学習する。
本手法は,映像質問応答に強力な能力を示す外観と動作に起因する質問条件付き視覚表現を学習できる。
論文 参考訳(メタデータ) (2021-04-29T03:02:37Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - Scene Graph Reasoning for Visual Question Answering [23.57543808056452]
本研究では,シーン内に存在するオブジェクトとその意味的・空間的関係に基づいて,コンテキスト駆動型シーケンシャルな推論を行うことにより,タスクにアプローチする手法を提案する。
強化エージェントは、抽出されたシーングラフを自律的にナビゲートして、回答を導出する基礎となるパスを生成する。
論文 参考訳(メタデータ) (2020-07-02T13:02:54Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。