論文の概要: WebQA: Multihop and Multimodal QA
- arxiv url: http://arxiv.org/abs/2109.00590v1
- Date: Wed, 1 Sep 2021 19:43:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-04 06:05:29.506752
- Title: WebQA: Multihop and Multimodal QA
- Title(参考訳): WebQA: マルチホップとマルチモーダルQA
- Authors: Yingshan Chang, Mridu Narang, Hisami Suzuki, Guihong Cao, Jianfeng
Gao, Yonatan Bisk
- Abstract要約: 自然言語とコンピュータビジョンのギャップをWebQAで埋めることを提案する。
我々の課題は、ソースのモダリティに関係なくシームレスに遷移し、理由を与える統一されたマルチモーダル推論モデルを作ることです。
- 参考スコア(独自算出の注目度): 49.683300706718136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web search is fundamentally multimodal and multihop. Often, even before
asking a question we choose to go directly to image search to find our answers.
Further, rarely do we find an answer from a single source but aggregate
information and reason through implications. Despite the frequency of this
everyday occurrence, at present, there is no unified question answering
benchmark that requires a single model to answer long-form natural language
questions from text and open-ended visual sources -- akin to a human's
experience. We propose to bridge this gap between the natural language and
computer vision communities with WebQA. We show that A. our multihop text
queries are difficult for a large-scale transformer model, and B. existing
multi-modal transformers and visual representations do not perform well on
open-domain visual queries. Our challenge for the community is to create a
unified multimodal reasoning model that seamlessly transitions and reasons
regardless of the source modality.
- Abstract(参考訳): Web検索は基本的にマルチモーダルでマルチホップである。
多くの場合、質問の前にも、直接画像検索へ行って答えを見つけることを選びます。
さらに、単一の情報源から答えを見つけることは滅多にないが、情報や理由を含意してまとめることはできない。
この日常的な発生頻度にもかかわらず、現在、テキストやオープンエンドのビジュアルソースから長い形式の自然言語質問に答えるために単一のモデルを必要とする統一質問応答ベンチマークは存在しません。
我々は、自然言語とコンピュータビジョンのコミュニティの間のギャップをwebqaで橋渡しすることを提案する。
A. マルチホップテキストクエリは大規模トランスフォーマーモデルでは困難であり, B. 既存のマルチモーダルトランスフォーマーと視覚表現はオープンドメインのビジュアルクエリではうまく動作しないことを示す。
コミュニティにとっての課題は、ソースモダリティに関係なくシームレスに移行と理由を持つ、統一されたマルチモーダル推論モデルを作ることです。
関連論文リスト
- Q&A Prompts: Discovering Rich Visual Clues through Mining
Question-Answer Prompts for VQA requiring Diverse World Knowledge [8.198028287058852]
我々は、堅牢な相互モダリティ推論能力を持つAIモデルを装備するためのQ&A Promptsを提案する。
まず、視覚的質問生成モデルの入力と出力として、画像と回答のペアと対応する質問をトレーニングセットとして使用する。
次に、画像タグモデルを用いて様々なインスタンスを識別し、パッケージ化された画像タグペアを視覚質問生成モデルに送信し、抽出した画像タグと関連する質問を回答として生成する。
論文 参考訳(メタデータ) (2024-01-19T14:22:29Z) - Improving Question Generation with Multi-level Content Planning [70.37285816596527]
本稿では、与えられたコンテキストと回答から質問を生成する問題に対処し、特に拡張されたコンテキストをまたいだマルチホップ推論を必要とする質問に焦点をあてる。
具体的には、キーフレーズを同時に選択して完全な回答を生成するFA-modelと、生成した全回答を付加的な入力として取り込んだQ-modelの2つのコンポーネントを含む。
論文 参考訳(メタデータ) (2023-10-20T13:57:01Z) - FashionVQA: A Domain-Specific Visual Question Answering System [2.6924405243296134]
我々は、ファッション写真画像におけるアパレルに関する複雑な自然言語質問に答えるために、視覚的質問応答システム(VQA)を訓練する。
最高のモデルの正確さは、人間が生成した質問に答える場合でも、人間の専門家レベルを超えます。
大規模マルチモーダルなドメイン特化データセットを生成するための我々のアプローチは、自然言語で通信可能な特殊なモデルを訓練するためのパスを提供する。
論文 参考訳(メタデータ) (2022-08-24T01:18:13Z) - Delving Deeper into Cross-lingual Visual Question Answering [115.16614806717341]
標準学習装置に簡単な修正を加えることで、モノリンガル英語のパフォーマンスへの移行ギャップを大幅に減らすことができることを示す。
多言語マルチモーダル変換器の多言語間VQAを多言語間VQAで解析する。
論文 参考訳(メタデータ) (2022-02-15T18:22:18Z) - TxT: Crossmodal End-to-End Learning with Transformers [84.55645255507461]
複数のモダリティに対する推論は、ドメイン間のセマンティックな概念の整合性を必要とする。
TxTはトランスフォーマーベースのクロスモーダルパイプラインで、下流タスクで言語とビジュアルコンポーネントの両方を微調整できる。
本モデルは,マルチモーダル質問応答のためのエンド・ツー・エンド・ラーニングからかなりの利益を得る。
論文 参考訳(メタデータ) (2021-09-09T17:12:20Z) - MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文 参考訳(メタデータ) (2021-04-13T09:14:28Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。