論文の概要: VTQA: Visual Text Question Answering via Entity Alignment and
Cross-Media Reasoning
- arxiv url: http://arxiv.org/abs/2303.02635v1
- Date: Sun, 5 Mar 2023 10:32:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 18:32:45.004800
- Title: VTQA: Visual Text Question Answering via Entity Alignment and
Cross-Media Reasoning
- Title(参考訳): VTQA:エンティティアライメントとクロスメディア推論によるビジュアルテキスト質問回答
- Authors: Kang Chen, Xiangqian Wu
- Abstract要約: 画像テキストペア10124に基づいて,23,781の質問を含むデータセットを新たに提案する。
この課題の目的は、マルチメディアエンティティアライメント、マルチステップ推論、オープンな回答生成が可能なモデルを開発し、ベンチマークすることである。
- 参考スコア(独自算出の注目度): 21.714382546678053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ideal form of Visual Question Answering requires understanding, grounding
and reasoning in the joint space of vision and language and serves as a proxy
for the AI task of scene understanding. However, most existing VQA benchmarks
are limited to just picking the answer from a pre-defined set of options and
lack attention to text. We present a new challenge with a dataset that contains
23,781 questions based on 10124 image-text pairs. Specifically, the task
requires the model to align multimedia representations of the same entity to
implement multi-hop reasoning between image and text and finally use natural
language to answer the question. The aim of this challenge is to develop and
benchmark models that are capable of multimedia entity alignment, multi-step
reasoning and open-ended answer generation.
- Abstract(参考訳): ビジュアル質問回答の理想的な形式は、視覚と言語の共同空間における理解、根拠、推論を必要とし、シーン理解のAIタスクのプロキシとして機能する。
しかしながら、既存のVQAベンチマークのほとんどは、事前に定義されたオプションセットから答えを選ぶだけで、テキストに注意を払わない。
画像テキストペア10124に基づいて,23,781の質問を含むデータセットを新たに提案する。
具体的には、画像とテキスト間のマルチホップ推論を実装し、最後に自然言語を使って質問に答えるために、同じエンティティのマルチメディア表現を調整する必要がある。
この課題の目的は、マルチメディアエンティティアライメント、マルチステップ推論、オープンエンド回答生成が可能なモデルを開発し、ベンチマークすることである。
関連論文リスト
- CommVQA: Situating Visual Question Answering in Communicative Contexts [16.180130883242672]
画像、画像記述、実世界のコミュニケーションシナリオからなるデータセットであるCommVQAを紹介する。
CommVQAの解決には文脈情報へのアクセスが不可欠であることを示す。
論文 参考訳(メタデータ) (2024-02-22T22:31:39Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z) - Unified Questioner Transformer for Descriptive Question Generation in
Goal-Oriented Visual Dialogue [0.0]
現実世界について質問できる対話型人工知能の構築は、ビジョンと言語問題における最大の課題の1つだ。
我々はUnified Questioner Transformer (UniQer) と呼ばれる新しい問合せアーキテクチャを提案する。
我々は、CLEVR Askと呼ばれる目標指向の視覚対話タスクを構築し、質問者に対して説明的質問を生成する複雑なシーンを合成する。
論文 参考訳(メタデータ) (2021-06-29T16:36:34Z) - MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文 参考訳(メタデータ) (2021-04-13T09:14:28Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Multimodal grid features and cell pointers for Scene Text Visual
Question Answering [7.834170106487722]
本稿では,シーンテキストによる視覚的質問応答のタスクのための新しいモデルを提案する。
問題に適応したマルチモーダルな特徴に対応するアテンションメカニズムに基づいている。
実験では、2つの標準データセットで競合性能を示す。
論文 参考訳(メタデータ) (2020-06-01T13:17:44Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。