論文の概要: ManyModalQA: Modality Disambiguation and QA over Diverse Inputs
- arxiv url: http://arxiv.org/abs/2001.08034v1
- Date: Wed, 22 Jan 2020 14:39:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 17:46:33.073080
- Title: ManyModalQA: Modality Disambiguation and QA over Diverse Inputs
- Title(参考訳): ManyModalQA: 様々な入力に対するモダリティの曖昧さとQA
- Authors: Darryl Hannan, Akshay Jain, and Mohit Bansal
- Abstract要約: 本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
- 参考スコア(独自算出の注目度): 73.93607719921945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new multimodal question answering challenge, ManyModalQA, in
which an agent must answer a question by considering three distinct modalities:
text, images, and tables. We collect our data by scraping Wikipedia and then
utilize crowdsourcing to collect question-answer pairs. Our questions are
ambiguous, in that the modality that contains the answer is not easily
determined based solely upon the question. To demonstrate this ambiguity, we
construct a modality selector (or disambiguator) network, and this model gets
substantially lower accuracy on our challenge set, compared to existing
datasets, indicating that our questions are more ambiguous. By analyzing this
model, we investigate which words in the question are indicative of the
modality. Next, we construct a simple baseline ManyModalQA model, which, based
on the prediction from the modality selector, fires a corresponding pre-trained
state-of-the-art unimodal QA model. We focus on providing the community with a
new manymodal evaluation set and only provide a fine-tuning set, with the
expectation that existing datasets and approaches will be transferred for most
of the training, to encourage low-resource generalization without large,
monolithic training sets for each new task. There is a significant gap between
our baseline models and human performance; therefore, we hope that this
challenge encourages research in end-to-end modality disambiguation and
multimodal QA models, as well as transfer learning. Code and data available at:
https://github.com/hannandarryl/ManyModalQA
- Abstract(参考訳): 我々は,エージェントがテキスト,画像,テーブルの3つの異なるモダリティを考慮し,質問に答えなければならない,新たなマルチモーダル質問応答課題であるmultimodalqaを提案する。
ウィキペディアをスクラップしてデータを収集し、クラウドソーシングを使って質問と回答のペアを収集します。
我々の質問は曖昧であり、答えを含むモダリティは、質問のみに基づいて簡単に決定されない。
この曖昧性を示すために、モダリティセレクタ(あるいは非曖昧性)ネットワークを構築し、このモデルは既存のデータセットと比較して、チャレンジセットの精度が大幅に低下し、質問があいまいであることを示している。
このモデルを解析することにより,どの単語がモダリティを示すかを調べる。
次に,モダリティセレクタからの予測に基づいて,事前学習されたunimodal qaモデルを起動する,単純なベースラインの manymodalqa モデルを構築する。
我々は,新たなマルチモーダル評価セットの提供に重点を置いており,既存のデータセットやアプローチがほとんどのトレーニングで移行されることを期待して,微調整セットのみを提供し,新たなタスク毎に大規模なモノリシックなトレーニングセットを使わずに,低リソースの一般化を促進することに重点を置いている。
ベースラインモデルと人的パフォーマンスの間には大きなギャップがあり、この課題が、エンドツーエンドのモダリティの曖昧さとマルチモーダルQAモデルの研究を奨励し、トランスファーラーニングを奨励することを願っている。
コードとデータ: https://github.com/hannandarryl/manymodalqa
関連論文リスト
- UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - MetaQA: Combining Expert Agents for Multi-Skill Question Answering [49.35261724460689]
マルチデータセットモデルの有望な結果にもかかわらず、いくつかのドメインやQAフォーマットは特定のアーキテクチャを必要とするかもしれません。
本稿では,専門家エージェントと,質問,回答予測,回答予測信頼度スコアを考慮した,新しい,柔軟な,学習効率の高いアーキテクチャを組み合わせることを提案する。
論文 参考訳(メタデータ) (2021-12-03T14:05:52Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。