論文の概要: CLEVR_HYP: A Challenge Dataset and Baselines for Visual Question
Answering with Hypothetical Actions over Images
- arxiv url: http://arxiv.org/abs/2104.05981v1
- Date: Tue, 13 Apr 2021 07:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 22:28:48.703038
- Title: CLEVR_HYP: A Challenge Dataset and Baselines for Visual Question
Answering with Hypothetical Actions over Images
- Title(参考訳): CLEVR_HYP:画像上の仮想行動を用いた視覚質問応答のための課題データセットとベースライン
- Authors: Shailaja Keyur Sampat, Akshay Kumar, Yezhou Yang and Chitta Baral
- Abstract要約: 視覚的な理解は、特定のシナリオで特定のアクションを実行するという仮説的な結果が精神的にシミュレートされるような質問に答えることに挑戦される。
CLEVRデータセットに基づいて視覚言語による質問応答タスクを定式化する。
- 参考スコア(独自算出の注目度): 31.317663183139384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing research on visual question answering (VQA) is limited to
information explicitly present in an image or a video. In this paper, we take
visual understanding to a higher level where systems are challenged to answer
questions that involve mentally simulating the hypothetical consequences of
performing specific actions in a given scenario. Towards that end, we formulate
a vision-language question answering task based on the CLEVR (Johnson et. al.,
2017) dataset. We then modify the best existing VQA methods and propose
baseline solvers for this task. Finally, we motivate the development of better
vision-language models by providing insights about the capability of diverse
architectures to perform joint reasoning over image-text modality. Our dataset
setup scripts and codes will be made publicly available at
https://github.com/shailaja183/clevr_hyp.
- Abstract(参考訳): 視覚的質問応答(VQA)に関する既存の研究は、画像やビデオに明確に存在する情報に限られている。
本稿では,与えられたシナリオで特定の行動を行うことによる仮説上の結果に精神的にシミュレートされるような質問に対して,システムがより高いレベルでの視覚的理解を行う。
その目的に向けて、clevr(johnson et.)に基づいて視覚言語質問応答タスクを定式化する。
2017年) データセット。
次に、既存のVQAメソッドを修正し、このタスクのベースラインソルバを提案する。
最後に,画像テキストのモダリティに対して共同推論を行う多様なアーキテクチャの能力に関する洞察を提供することにより,より良い視覚言語モデルの開発を動機付ける。
データセットのセットアップスクリプトとコードはhttps://github.com/shailaja183/clevr_hypで公開されます。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts [3.6064695344878093]
視覚的質問応答(VQA)は、視覚と言語の内容を理解し、推論し、推論する必要があるため、AI完全タスクとして知られている。
本稿では,VQAパイプラインの中間プロセスとして画像キャプションを組み込むことによる影響について検討する。
論文 参考訳(メタデータ) (2024-04-12T16:35:23Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Grounding Answers for Visual Questions Asked by Visually Impaired People [16.978747012406266]
VizWiz-VQA-Groundingは、視覚障害者が質問する視覚的質問に答えを視覚的に根拠付ける最初のデータセットである。
データセットを分析し、それを5つのVQA-Groundingデータセットと比較し、類似点と異なる点を実証します。
論文 参考訳(メタデータ) (2022-02-04T06:47:16Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z) - Visuo-Linguistic Question Answering (VLQA) Challenge [47.54738740910987]
与えられた画像-テキストのモダリティに関する共同推論を導出する新しいタスクを提案する。
本稿では,VLQA問題コーパスを質問応答設定にコンパイルする。
論文 参考訳(メタデータ) (2020-05-01T12:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。