論文の概要: WebQA: Multihop and Multimodal QA
- arxiv url: http://arxiv.org/abs/2109.00590v1
- Date: Wed, 1 Sep 2021 19:43:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-04 06:05:29.506752
- Title: WebQA: Multihop and Multimodal QA
- Title(参考訳): WebQA: マルチホップとマルチモーダルQA
- Authors: Yingshan Chang, Mridu Narang, Hisami Suzuki, Guihong Cao, Jianfeng
Gao, Yonatan Bisk
- Abstract要約: 自然言語とコンピュータビジョンのギャップをWebQAで埋めることを提案する。
我々の課題は、ソースのモダリティに関係なくシームレスに遷移し、理由を与える統一されたマルチモーダル推論モデルを作ることです。
- 参考スコア(独自算出の注目度): 49.683300706718136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web search is fundamentally multimodal and multihop. Often, even before
asking a question we choose to go directly to image search to find our answers.
Further, rarely do we find an answer from a single source but aggregate
information and reason through implications. Despite the frequency of this
everyday occurrence, at present, there is no unified question answering
benchmark that requires a single model to answer long-form natural language
questions from text and open-ended visual sources -- akin to a human's
experience. We propose to bridge this gap between the natural language and
computer vision communities with WebQA. We show that A. our multihop text
queries are difficult for a large-scale transformer model, and B. existing
multi-modal transformers and visual representations do not perform well on
open-domain visual queries. Our challenge for the community is to create a
unified multimodal reasoning model that seamlessly transitions and reasons
regardless of the source modality.
- Abstract(参考訳): Web検索は基本的にマルチモーダルでマルチホップである。
多くの場合、質問の前にも、直接画像検索へ行って答えを見つけることを選びます。
さらに、単一の情報源から答えを見つけることは滅多にないが、情報や理由を含意してまとめることはできない。
この日常的な発生頻度にもかかわらず、現在、テキストやオープンエンドのビジュアルソースから長い形式の自然言語質問に答えるために単一のモデルを必要とする統一質問応答ベンチマークは存在しません。
我々は、自然言語とコンピュータビジョンのコミュニティの間のギャップをwebqaで橋渡しすることを提案する。
A. マルチホップテキストクエリは大規模トランスフォーマーモデルでは困難であり, B. 既存のマルチモーダルトランスフォーマーと視覚表現はオープンドメインのビジュアルクエリではうまく動作しないことを示す。
コミュニティにとっての課題は、ソースモダリティに関係なくシームレスに移行と理由を持つ、統一されたマルチモーダル推論モデルを作ることです。
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge [10.074327344317116]
我々は、堅牢な相互モダリティ推論能力を持つAIモデルを装備するためのQ&A Promptsを提案する。
まず、視覚的質問生成モデルの入力と出力として、画像と回答のペアと対応する質問をトレーニングセットとして使用する。
次に、画像タグモデルを用いて様々なインスタンスを識別し、パッケージ化された画像タグペアを視覚質問生成モデルに送信し、抽出した画像タグと関連する質問を回答として生成する。
論文 参考訳(メタデータ) (2024-01-19T14:22:29Z) - TxT: Crossmodal End-to-End Learning with Transformers [84.55645255507461]
複数のモダリティに対する推論は、ドメイン間のセマンティックな概念の整合性を必要とする。
TxTはトランスフォーマーベースのクロスモーダルパイプラインで、下流タスクで言語とビジュアルコンポーネントの両方を微調整できる。
本モデルは,マルチモーダル質問応答のためのエンド・ツー・エンド・ラーニングからかなりの利益を得る。
論文 参考訳(メタデータ) (2021-09-09T17:12:20Z) - MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文 参考訳(メタデータ) (2021-04-13T09:14:28Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。