論文の概要: Enhancing Visual Dialog Questioner with Entity-based Strategy Learning
and Augmented Guesser
- arxiv url: http://arxiv.org/abs/2109.02297v1
- Date: Mon, 6 Sep 2021 08:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:59:23.083863
- Title: Enhancing Visual Dialog Questioner with Entity-based Strategy Learning
and Augmented Guesser
- Title(参考訳): エンティティベースの戦略学習と拡張ガイダンスによるビジュアルダイアログ質問の強化
- Authors: Duo Zheng, Zipeng Xu, Fandong Meng, Xiaojie Wang, Jiaan Wang, Jie Zhou
- Abstract要約: 本稿では,関連エンティティの指導の下で質問を生成し,人間の対話からエンティティベースの質問戦略を学習するReeQ(Relationed entity enhanced Questioner)を提案する。
また,特にVD設定に最適化されたAugG(Augmented Guesser)を提案する。
VisDial v1.0データセットによる実験結果から,本手法は画像認識タスクと問合せ多様性の両方において最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 43.42833961578857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Considering the importance of building a good Visual Dialog (VD) Questioner,
many researchers study the topic under a Q-Bot-A-Bot image-guessing game
setting, where the Questioner needs to raise a series of questions to collect
information of an undisclosed image. Despite progress has been made in
Supervised Learning (SL) and Reinforcement Learning (RL), issues still exist.
Firstly, previous methods do not provide explicit and effective guidance for
Questioner to generate visually related and informative questions. Secondly,
the effect of RL is hampered by an incompetent component, i.e., the Guesser,
who makes image predictions based on the generated dialogs and assigns rewards
accordingly. To enhance VD Questioner: 1) we propose a Related entity enhanced
Questioner (ReeQ) that generates questions under the guidance of related
entities and learns entity-based questioning strategy from human dialogs; 2) we
propose an Augmented Guesser (AugG) that is strong and is optimized for the VD
setting especially. Experimental results on the VisDial v1.0 dataset show that
our approach achieves state-of-theart performance on both image-guessing task
and question diversity. Human study further proves that our model generates
more visually related, informative and coherent questions.
- Abstract(参考訳): 優れたVisual Dialog (VD) Questionerを構築することの重要性を考えると、多くの研究者がこのトピックをQ-Bot-A-Botイメージゲスティングゲーム設定の下で研究している。
SL (Supervised Learning) や強化学習 (Reinforcement Learning, RL) にも進展があるが, 問題はまだ残っている。
第一に、従来の方法は、視覚的に関連し、情報的な質問を生成するために、質問者に明示的かつ効果的なガイダンスを提供していない。
第二に、RLの効果は、生成したダイアログに基づいて画像予測を行い、それに応じて報酬を割り当てる、非能率成分であるギーザーによって妨げられる。
1)関連エンティティの指導の下で質問を生成し,人間の対話からエンティティベースの質問戦略を学ぶ関連エンティティ拡張質問者(reeq)を提案し,2)強力なvd設定に最適化された拡張推測者(augg)を提案する。
VisDial v1.0データセットによる実験結果から,本手法は画像認識タスクと問合せ多様性の両方において最先端の性能を実現する。
人間の研究は、我々のモデルがより視覚的に関連があり、情報的かつ一貫性のある質問を生成することを証明している。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge [10.074327344317116]
我々は、堅牢な相互モダリティ推論能力を持つAIモデルを装備するためのQ&A Promptsを提案する。
まず、視覚的質問生成モデルの入力と出力として、画像と回答のペアと対応する質問をトレーニングセットとして使用する。
次に、画像タグモデルを用いて様々なインスタンスを識別し、パッケージ化された画像タグペアを視覚質問生成モデルに送信し、抽出した画像タグと関連する質問を回答として生成する。
論文 参考訳(メタデータ) (2024-01-19T14:22:29Z) - Weakly Supervised Visual Question Answer Generation [2.7605547688813172]
視覚情報とキャプションから手続き的に質問応答対を合成的に生成する弱教師付き手法を提案する。
我々は,VQAデータセットの総合的な実験分析を行い,BLEUスコアのSOTA手法を著しく上回る結果を得た。
論文 参考訳(メタデータ) (2023-06-11T08:46:42Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Answer-Driven Visual State Estimator for Goal-Oriented Visual Dialogue [42.563261906213455]
視覚状態に対する異なる回答の効果を付加するアンサー駆動型視覚状態推定器(ADVSE)を提案する。
まず、視覚的注意に対する回答駆動の効果を捉えるために、回答駆動集中注意(ADFA)を提案する。
そして、焦点をあてて、条件付き視覚情報融合(CVIF)による視覚状態推定を行う。
論文 参考訳(メタデータ) (2020-10-01T12:46:38Z) - Knowledgeable Dialogue Reading Comprehension on Key Turns [84.1784903043884]
MRC(Multi-choice Machine reading comprehension)は、ある項目と質問に対する候補オプションから正しい回答を選択するモデルである。
本研究は,複数回対話を行う対話型MRCに焦点を当てている。
それは2つの課題に悩まされ、答えの選択決定は、最近役に立つコモンセンスをサポートせずに行われ、マルチターンコンテキストは、かなりの無関係な情報を隠蔽する可能性がある。
論文 参考訳(メタデータ) (2020-04-29T07:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。