論文の概要: Co-VQA : Answering by Interactive Sub Question Sequence
- arxiv url: http://arxiv.org/abs/2204.00879v1
- Date: Sat, 2 Apr 2022 15:09:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 14:05:22.828028
- Title: Co-VQA : Answering by Interactive Sub Question Sequence
- Title(参考訳): Co-VQA : 対話型質問系列による回答
- Authors: Ruonan Wang, Yuxi Qian, Fangxiang Feng, Xiaojie Wang and Huixing Jiang
- Abstract要約: 本稿では,質問者,Oracle,Answererの3つのコンポーネントからなる対話型VQAフレームワークを提案する。
モデル毎に教師あり学習を行うために,VQA 2.0 と VQA-CP v2 データセット上で,各質問に対する SQS を構築する方法を提案する。
- 参考スコア(独自算出の注目度): 18.476819557695087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing approaches to Visual Question Answering (VQA) answer questions
directly, however, people usually decompose a complex question into a sequence
of simple sub questions and finally obtain the answer to the original question
after answering the sub question sequence(SQS). By simulating the process, this
paper proposes a conversation-based VQA (Co-VQA) framework, which consists of
three components: Questioner, Oracle, and Answerer. Questioner raises the sub
questions using an extending HRED model, and Oracle answers them one-by-one. An
Adaptive Chain Visual Reasoning Model (ACVRM) for Answerer is also proposed,
where the question-answer pair is used to update the visual representation
sequentially. To perform supervised learning for each model, we introduce a
well-designed method to build a SQS for each question on VQA 2.0 and VQA-CP v2
datasets. Experimental results show that our method achieves state-of-the-art
on VQA-CP v2. Further analyses show that SQSs help build direct semantic
connections between questions and images, provide question-adaptive
variable-length reasoning chains, and with explicit interpretability as well as
error traceability.
- Abstract(参考訳): 既存のVQA(Visual Question Answering)のアプローチの多くは直接質問に答えるが、複雑な質問を単純なサブ質問列に分解し、サブ質問列(SQS)に答えた後、最終的に元の質問への回答を得るのが普通である。
プロセスのシミュレーションにより,質問,Oracle,Answererの3つのコンポーネントから構成される会話ベースのVQA(Co-VQA)フレームワークを提案する。
質問者は拡張HREDモデルを使ってサブ質問を提起し、Oracleはそれらを1つずつ答える。
Answerer の適応型連鎖視覚推論モデル (ACVRM) も提案され,質問応答ペアを用いて視覚表現を逐次更新する。
モデル毎に教師あり学習を行うために,VQA 2.0 と VQA-CP v2 データセット上で,各質問に対する SQS を構築する方法を提案する。
実験の結果,VQA-CP v2の最先端化が得られた。
さらに分析したところ、SQSは質問と画像間の直接的な意味的接続を構築し、質問適応型可変長推論チェーンを提供し、明示的な解釈可能性とエラートレーサビリティを提供する。
関連論文リスト
- Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Improving Unsupervised Question Answering via Summarization-Informed
Question Generation [47.96911338198302]
質問生成 (QG) とは, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、
我々は、自由なニュース要約データを使用し、宣言文を依存性解析、名前付きエンティティ認識、セマンティックロールラベリングを用いて適切な質問に変換する。
得られた質問は、元のニュース記事と組み合わせて、エンドツーエンドのニューラルQGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-09-16T13:08:43Z) - Beyond VQA: Generating Multi-word Answer and Rationale to Visual
Questions [27.807568245576718]
ViQAR(Visual Question Answering and Reasoning)では、モデルが完全な回答と、生成した回答を正当化する根拠を生成する必要がある。
我々は,人間のチューリングテストと同様に質的,定量的な評価によって,モデルが強い答えと有理性を生成することを示す。
論文 参考訳(メタデータ) (2020-10-24T09:44:50Z) - Hierarchical Deep Multi-modal Network for Medical Visual Question
Answering [25.633660028022195]
本稿では,エンドユーザの質問/問い合わせを分析し,分類する階層的なディープマルチモーダルネットワークを提案する。
我々は、QSモデルを階層的な深層多モードニューラルネットワークに統合し、医用画像に関するクエリに対する適切な回答を生成する。
論文 参考訳(メタデータ) (2020-09-27T07:24:41Z) - Multiple interaction learning with question-type prior knowledge for
constraining answer search space in visual question answering [24.395733613284534]
質問型事前情報を利用してVQAを改善する新しいVQAモデルを提案する。
VQA 2.0とTDIUCという2つのベンチマークデータセットの固体実験は、提案手法が最も競争力のあるアプローチで最高の性能を得ることを示している。
論文 参考訳(メタデータ) (2020-09-23T12:54:34Z) - Unsupervised Question Decomposition for Question Answering [102.56966847404287]
本論文では, ワンツーNアン教師付きシーケンスシーケンス(ONUS)のアルゴリズムを提案する。
当初,ドメイン外,マルチホップ開発セットのベースラインが強かったため,HotpotQAでは大きなQA改善が見られた。
論文 参考訳(メタデータ) (2020-02-22T19:40:35Z) - CQ-VQA: Visual Question Answering on Categorized Questions [3.0013352260516744]
本稿では,視覚的質問応答(VQA)の課題を解決するために,新しい2階層型・エンドツーエンドモデルであるCQ-VQAを提案する。
質問分類器(QC)と呼ばれる第1レベルのCQ-VQAは、潜在的な回答検索スペースを減らすために質問を分類する。
第2のレベルは、回答予測器(AP)と呼ばれ、各質問カテゴリに対応する一組の別個の分類器から構成される。
論文 参考訳(メタデータ) (2020-02-17T06:45:29Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。