論文の概要: VQA Therapy: Exploring Answer Differences by Visually Grounding Answers
- arxiv url: http://arxiv.org/abs/2308.11662v2
- Date: Thu, 24 Aug 2023 23:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 20:47:35.275538
- Title: VQA Therapy: Exploring Answer Differences by Visually Grounding Answers
- Title(参考訳): VQA療法 : 視覚的接地による回答の違いを探る
- Authors: Chongyan Chen, Samreen Anjum, Danna Gurari
- Abstract要約: 視覚的な質問に対して各ユニークな回答を視覚的に根拠付ける最初のデータセットを紹介します。
次に,視覚的問題に1つの答えの根拠があるかどうかを予測する2つの新しい問題を提案する。
- 参考スコア(独自算出の注目度): 21.77545853313608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual question answering is a task of predicting the answer to a question
about an image. Given that different people can provide different answers to a
visual question, we aim to better understand why with answer groundings. We
introduce the first dataset that visually grounds each unique answer to each
visual question, which we call VQAAnswerTherapy. We then propose two novel
problems of predicting whether a visual question has a single answer grounding
and localizing all answer groundings. We benchmark modern algorithms for these
novel problems to show where they succeed and struggle. The dataset and
evaluation server can be found publicly at
https://vizwiz.org/tasks-and-datasets/vqa-answer-therapy/.
- Abstract(参考訳): 視覚的な質問応答は、画像に関する質問に対する回答を予測するタスクである。
異なる人々が視覚的な質問に対して異なる回答を提供できることを考えれば、答えの根拠を持つ理由をよりよく理解することを目指している。
VQAAnswerTherapyと呼ばれる、視覚的な各質問に対して、それぞれのユニークな答えを視覚的に根拠付ける最初のデータセットを紹介します。
次に,視覚的質問が1つの回答グラウンドを持つかどうかを予測し,すべての回答グラウンドを局所化する2つの新しい問題を提案する。
我々は、これらの新しい問題の現代的アルゴリズムをベンチマークし、成功と苦闘の場所を示す。
データセットと評価サーバはhttps://vizwiz.org/tasks-and-datasets/vqa-answer-therapy/で公開されている。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Equivariant and Invariant Grounding for Video Question Answering [68.33688981540998]
ほとんどの主要なVideoQAモデルはブラックボックスとして機能し、応答プロセスの背後にある視覚言語的なアライメントを曖昧にする。
解釈可能なビデオQA(EIGV)のための自己解釈可能なフレームワーク、同変および不変グラウンドを考案する。
EIGVは、因果場面と環境情報を区別し、視覚言語的アライメントを明確に提示することができる。
論文 参考訳(メタデータ) (2022-07-26T10:01:02Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Grounding Answers for Visual Questions Asked by Visually Impaired People [16.978747012406266]
VizWiz-VQA-Groundingは、視覚障害者が質問する視覚的質問に答えを視覚的に根拠付ける最初のデータセットである。
データセットを分析し、それを5つのVQA-Groundingデータセットと比較し、類似点と異なる点を実証します。
論文 参考訳(メタデータ) (2022-02-04T06:47:16Z) - AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer
Summarization [73.91543616777064]
Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。
回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。
本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
論文 参考訳(メタデータ) (2021-11-11T21:48:02Z) - Check It Again: Progressive Visual Question Answering via Visual
Entailment [12.065178204539693]
Visual Entailmentに基づいたSAR(Select-and-Rerank)プログレッシブフレームワークを提案する。
まず、質問や画像に関連する候補の答えを選択し、その候補の答えを視覚的細分化タスクで並べ替える。
実験の結果,VQA-CP v2の精度が7.55%向上した。
論文 参考訳(メタデータ) (2021-06-08T18:00:38Z) - CLEVR_HYP: A Challenge Dataset and Baselines for Visual Question
Answering with Hypothetical Actions over Images [31.317663183139384]
視覚的な理解は、特定のシナリオで特定のアクションを実行するという仮説的な結果が精神的にシミュレートされるような質問に答えることに挑戦される。
CLEVRデータセットに基づいて視覚言語による質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2021-04-13T07:29:21Z) - Graph-Based Tri-Attention Network for Answer Ranking in CQA [56.42018099917321]
本稿では,グラフに基づく新しい三者関係ネットワーク,すなわちGTANを提案し,回答ランキングのスコアを生成する。
実世界の3つのCQAデータセットの実験では、GTANは最先端の回答ランキング法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-03-05T10:40:38Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Answer-Driven Visual State Estimator for Goal-Oriented Visual Dialogue [42.563261906213455]
視覚状態に対する異なる回答の効果を付加するアンサー駆動型視覚状態推定器(ADVSE)を提案する。
まず、視覚的注意に対する回答駆動の効果を捉えるために、回答駆動集中注意(ADFA)を提案する。
そして、焦点をあてて、条件付き視覚情報融合(CVIF)による視覚状態推定を行う。
論文 参考訳(メタデータ) (2020-10-01T12:46:38Z) - Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文 参考訳(メタデータ) (2020-08-27T08:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。