論文の概要: Visuo-Linguistic Question Answering (VLQA) Challenge
- arxiv url: http://arxiv.org/abs/2005.00330v3
- Date: Wed, 18 Nov 2020 07:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 22:35:26.941997
- Title: Visuo-Linguistic Question Answering (VLQA) Challenge
- Title(参考訳): Visuo-Linguistic Question Answering (VLQA) Challenge
- Authors: Shailaja Keyur Sampat, Yezhou Yang and Chitta Baral
- Abstract要約: 与えられた画像-テキストのモダリティに関する共同推論を導出する新しいタスクを提案する。
本稿では,VLQA問題コーパスを質問応答設定にコンパイルする。
- 参考スコア(独自算出の注目度): 47.54738740910987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding images and text together is an important aspect of cognition
and building advanced Artificial Intelligence (AI) systems. As a community, we
have achieved good benchmarks over language and vision domains separately,
however joint reasoning is still a challenge for state-of-the-art computer
vision and natural language processing (NLP) systems. We propose a novel task
to derive joint inference about a given image-text modality and compile the
Visuo-Linguistic Question Answering (VLQA) challenge corpus in a question
answering setting. Each dataset item consists of an image and a reading
passage, where questions are designed to combine both visual and textual
information i.e., ignoring either modality would make the question
unanswerable. We first explore the best existing vision-language architectures
to solve VLQA subsets and show that they are unable to reason well. We then
develop a modular method with slightly better baseline performance, but it is
still far behind human performance. We believe that VLQA will be a good
benchmark for reasoning over a visuo-linguistic context. The dataset, code and
leaderboard is available at https://shailaja183.github.io/vlqa/.
- Abstract(参考訳): 画像とテキストを一緒に理解することは、認知と高度な人工知能(AI)システムの構築の重要な側面である。
コミュニティとしては、言語とビジョンドメインを別々に比較して優れたベンチマークを達成していますが、共同推論は現在でも最先端のコンピュータビジョンと自然言語処理(NLP)システムにおいて課題です。
本稿では,与えられた画像文のモダリティに関する共同推論を導出し,VLQA課題コーパスを質問応答設定でコンパイルする新しいタスクを提案する。
各データセットの項目は画像と読み上げ文で構成されており、質問は視覚的情報とテキスト情報の両方を結合するように設計されている。
まず,vlqaサブセットを解決するための最善のビジョン言語アーキテクチャを探求し,十分な推論ができないことを示す。
基本性能がわずかに向上したモジュラー手法を開発するが、それでも人的性能には及ばない。
VLQAは、ビジュオ言語的文脈を推論するための良いベンチマークになるだろうと考えています。
データセット、コード、リーダーボードはhttps://shailaja183.github.io/vlqa/で入手できる。
関連論文リスト
- Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - Text-Aware Dual Routing Network for Visual Question Answering [11.015339851906287]
既存のアプローチはしばしば、疑問に答えるために画像中のテキストを読み、理解する必要がある場合に失敗する。
本稿では,入力画像中のテキスト情報を理解しないVQA事例を同時に処理するテキスト認識デュアルルーティングネットワーク(TDR)を提案する。
テキスト理解を伴うブランチでは,画像中のテキストの理解を支援するために,OCR(Optical Character Recognition)機能をモデルに組み込む。
論文 参考訳(メタデータ) (2022-11-17T02:02:11Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - CLEVR_HYP: A Challenge Dataset and Baselines for Visual Question
Answering with Hypothetical Actions over Images [31.317663183139384]
視覚的な理解は、特定のシナリオで特定のアクションを実行するという仮説的な結果が精神的にシミュレートされるような質問に答えることに挑戦される。
CLEVRデータセットに基づいて視覚言語による質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2021-04-13T07:29:21Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。