論文の概要: Answer-Driven Visual State Estimator for Goal-Oriented Visual Dialogue
- arxiv url: http://arxiv.org/abs/2010.00361v2
- Date: Thu, 24 Mar 2022 12:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 08:19:55.381741
- Title: Answer-Driven Visual State Estimator for Goal-Oriented Visual Dialogue
- Title(参考訳): ゴール指向視覚対話のための回答駆動視覚状態推定器
- Authors: Zipeng Xu, Fangxiang Feng, Xiaojie Wang, Yushu Yang, Huixing Jiang,
Zhongyuan Wang
- Abstract要約: 視覚状態に対する異なる回答の効果を付加するアンサー駆動型視覚状態推定器(ADVSE)を提案する。
まず、視覚的注意に対する回答駆動の効果を捉えるために、回答駆動集中注意(ADFA)を提案する。
そして、焦点をあてて、条件付き視覚情報融合(CVIF)による視覚状態推定を行う。
- 参考スコア(独自算出の注目度): 42.563261906213455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A goal-oriented visual dialogue involves multi-turn interactions between two
agents, Questioner and Oracle. During which, the answer given by Oracle is of
great significance, as it provides golden response to what Questioner concerns.
Based on the answer, Questioner updates its belief on target visual content and
further raises another question. Notably, different answers drive into
different visual beliefs and future questions. However, existing methods always
indiscriminately encode answers after much longer questions, resulting in a
weak utilization of answers. In this paper, we propose an Answer-Driven Visual
State Estimator (ADVSE) to impose the effects of different answers on visual
states. First, we propose an Answer-Driven Focusing Attention (ADFA) to capture
the answer-driven effect on visual attention by sharpening question-related
attention and adjusting it by answer-based logical operation at each turn. Then
based on the focusing attention, we get the visual state estimation by
Conditional Visual Information Fusion (CVIF), where overall information and
difference information are fused conditioning on the question-answer state. We
evaluate the proposed ADVSE to both question generator and guesser tasks on the
large-scale GuessWhat?! dataset and achieve the state-of-the-art performances
on both tasks. The qualitative results indicate that the ADVSE boosts the agent
to generate highly efficient questions and obtains reliable visual attentions
during the reasonable question generation and guess processes.
- Abstract(参考訳): ゴール指向のビジュアル対話は、質問者とオラクルの2つのエージェント間のマルチターンインタラクションを含む。
その間、Oracleから与えられた回答は、質問に対する黄金の反応を提供するので、非常に重要である。
回答に基づいて、質問者はターゲットのビジュアルコンテンツに対する信念を更新し、さらに別の質問を提起する。
特に、異なる答えは、異なる視覚的信念と将来の疑問をもたらす。
しかし、既存の手法は常に長い質問の後に無差別に答えを符号化し、答えの弱い利用をもたらす。
本稿では,視覚状態に対する異なる回答の効果を付与するアンサー駆動型視覚状態推定器(ADVSE)を提案する。
まず,質問関連注意を鋭くし,各ターンで回答に基づく論理操作によって調整することで,視覚的注意に対する回答駆動効果を捉えるための回答駆動集中注意(ADFA)を提案する。
そして,焦点をあてて,条件付き視覚情報融合(CVIF)による視覚状態推定を行い,質問応答状態に基づいて情報と差分情報を融合させる。
提案したADVSEを,大規模Guessの質問生成タスクと推測タスクの両方に評価する。
両方のタスクで最先端のパフォーマンスをデータセットして達成する。
定性的な結果から,advseはエージェントを増強して高効率な質問を生成し,合理的な質問生成と推測プロセス中に信頼できる視覚的注意を得る。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - QAGCF: Graph Collaborative Filtering for Q&A Recommendation [58.21387109664593]
質問と回答(Q&A)プラットフォームは通常、ユーザの知識獲得のニーズを満たすために質問と回答のペアを推奨する。
これにより、ユーザの振る舞いがより複雑になり、Q&Aレコメンデーションの2つの課題が提示される。
グラフニューラルネットワークモデルであるQ&Answer Graph Collaborative Filtering (QAGCF)を導入する。
論文 参考訳(メタデータ) (2024-06-07T10:52:37Z) - Weakly Supervised Visual Question Answer Generation [2.7605547688813172]
視覚情報とキャプションから手続き的に質問応答対を合成的に生成する弱教師付き手法を提案する。
我々は,VQAデータセットの総合的な実験分析を行い,BLEUスコアのSOTA手法を著しく上回る結果を得た。
論文 参考訳(メタデータ) (2023-06-11T08:46:42Z) - SC-ML: Self-supervised Counterfactual Metric Learning for Debiased
Visual Question Answering [10.749155815447127]
画像特徴に着目した自己教師付き対実測位学習法(SC-ML)を提案する。
SC-MLは、質問関連視覚特徴を適応的に選択し、質問関連視覚特徴の負の影響を低減できる。
論文 参考訳(メタデータ) (2023-04-04T09:05:11Z) - Equivariant and Invariant Grounding for Video Question Answering [68.33688981540998]
ほとんどの主要なVideoQAモデルはブラックボックスとして機能し、応答プロセスの背後にある視覚言語的なアライメントを曖昧にする。
解釈可能なビデオQA(EIGV)のための自己解釈可能なフレームワーク、同変および不変グラウンドを考案する。
EIGVは、因果場面と環境情報を区別し、視覚言語的アライメントを明確に提示することができる。
論文 参考訳(メタデータ) (2022-07-26T10:01:02Z) - Grounding Answers for Visual Questions Asked by Visually Impaired People [16.978747012406266]
VizWiz-VQA-Groundingは、視覚障害者が質問する視覚的質問に答えを視覚的に根拠付ける最初のデータセットである。
データセットを分析し、それを5つのVQA-Groundingデータセットと比較し、類似点と異なる点を実証します。
論文 参考訳(メタデータ) (2022-02-04T06:47:16Z) - Enhancing Visual Dialog Questioner with Entity-based Strategy Learning
and Augmented Guesser [43.42833961578857]
本稿では,関連エンティティの指導の下で質問を生成し,人間の対話からエンティティベースの質問戦略を学習するReeQ(Relationed entity enhanced Questioner)を提案する。
また,特にVD設定に最適化されたAugG(Augmented Guesser)を提案する。
VisDial v1.0データセットによる実験結果から,本手法は画像認識タスクと問合せ多様性の両方において最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-09-06T08:58:43Z) - Check It Again: Progressive Visual Question Answering via Visual
Entailment [12.065178204539693]
Visual Entailmentに基づいたSAR(Select-and-Rerank)プログレッシブフレームワークを提案する。
まず、質問や画像に関連する候補の答えを選択し、その候補の答えを視覚的細分化タスクで並べ替える。
実験の結果,VQA-CP v2の精度が7.55%向上した。
論文 参考訳(メタデータ) (2021-06-08T18:00:38Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。