論文の概要: MCQA: Multimodal Co-attention Based Network for Question Answering
- arxiv url: http://arxiv.org/abs/2004.12238v1
- Date: Sat, 25 Apr 2020 21:37:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 21:52:49.060250
- Title: MCQA: Multimodal Co-attention Based Network for Question Answering
- Title(参考訳): MCQA:質問応答のためのマルチモーダル協調型ネットワーク
- Authors: Abhishek Kumar, Trisha Mittal, Dinesh Manocha
- Abstract要約: 我々のアルゴリズムは、クエリのコンテキストを形成するマルチモーダル入力(テキスト、オーディオ、ビデオ)を融合し、整列する。
マルチモーダル質問応答のベンチマークデータセットであるSocial-IQを用いて,提案アルゴリズムの性能評価を行った。
- 参考スコア(独自算出の注目度): 81.13159904820382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MCQA, a learning-based algorithm for multimodal question
answering. MCQA explicitly fuses and aligns the multimodal input (i.e. text,
audio, and video), which forms the context for the query (question and answer).
Our approach fuses and aligns the question and the answer within this context.
Moreover, we use the notion of co-attention to perform cross-modal alignment
and multimodal context-query alignment. Our context-query alignment module
matches the relevant parts of the multimodal context and the query with each
other and aligns them to improve the overall performance. We evaluate the
performance of MCQA on Social-IQ, a benchmark dataset for multimodal question
answering. We compare the performance of our algorithm with prior methods and
observe an accuracy improvement of 4-7%.
- Abstract(参考訳): マルチモーダル質問応答のための学習ベースアルゴリズムMCQAを提案する。
mcqaは、クエリ(質問と回答)のコンテキストを形成するマルチモーダル入力(テキスト、オーディオ、ビデオ)を、明示的に融合して調整します。
私たちのアプローチは、このコンテキスト内で質問と回答を融合し調整します。
さらに,クロスモーダルアライメントとマルチモーダルコンテキスト・クエリアライメントを行うために,コアテンションの概念を用いる。
我々のコンテキストクエリアライメントモジュールは、マルチモーダルコンテキストとクエリの関連部分とをマッチングし、全体的なパフォーマンスを改善するためにそれらを調整します。
マルチモーダル質問応答のためのベンチマークデータセットであるSocial-IQにおけるMCQAの性能を評価する。
アルゴリズムの性能を従来の手法と比較し, 4~7%の精度向上を観測した。
関連論文リスト
- AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit [59.10281630985958]
質問応答(QA)では、異なる質問を異なる回答戦略で効果的に扱うことができる。
本稿では,各質問に対して最適なQA戦略を適応的に選択する動的手法を提案する。
提案手法は,複数のモジュールを持つQAシステムの適応的オーケストレーションに有効であることを示す。
論文 参考訳(メタデータ) (2024-09-20T12:28:18Z) - Multiple-Question Multiple-Answer Text-VQA [19.228969692887603]
Multi-Question Multiple-Answer (MQMA) は、エンコーダ・デコーダ変換モデルでテキストVQAを行うための新しいアプローチである。
MQMAは、エンコーダの入力として複数の質問とコンテンツを取り込み、デコーダの複数の回答を自動回帰的に予測する。
本稿では,複数の質問や内容と関連する回答の整合性や記述をモデルに教える,新しいMQMA事前学習タスクを提案する。
論文 参考訳(メタデータ) (2023-11-15T01:00:02Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - SPRING: Situated Conversation Agent Pretrained with Multimodal Questions
from Incremental Layout Graph [16.275155481031348]
Incremental Layout Graph (SPRing) を用いた多モーダル質問を学習した特定対話エージェントを提案する。
プレトレーニングで使用するQAペアはすべて、新規なインクリメンタルレイアウトグラフ(ILG)から生成される。
実験により,SPRINGの有効性が検証され,SIMMC 1.0とSIMMC 2.0の両方のデータセットに対する最先端のアプローチを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2023-01-05T08:03:47Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - PACIFIC: Towards Proactive Conversational Question Answering over
Tabular and Textual Data in Finance [96.06505049126345]
我々はPACIFICという新しいデータセットを提案する。既存のCQAデータセットと比較すると、PACIFICは(i)活動性、(ii)数値推論、(iii)表とテキストのハイブリッドコンテキストの3つの重要な特徴を示す。
質問生成とCQAを組み合わせたPCQA(Proactive Conversational Question Answering)に基づいて,新しいタスクを定義する。
UniPCQAはPCQAのすべてのサブタスク上でマルチタスク学習を行い、Seeq2Seqの上位$kのサンプルをクロスバリデーションすることで、マルチタスク学習におけるエラー伝搬問題を緩和するための単純なアンサンブル戦略を取り入れている。
論文 参考訳(メタデータ) (2022-10-17T08:06:56Z) - MoCA: Incorporating Multi-stage Domain Pretraining and Cross-guided
Multimodal Attention for Textbook Question Answering [7.367945534481411]
テキスト質問応答タスクに対して,多段階事前学習とマルチモーダルクロスアテンションを取り入れたMoCAという新しいモデルを提案する。
実験結果から,本モデルの精度が2.21%, 2.43%向上し, 検証精度が2.21%, テストスプリットが2.43%向上した。
論文 参考訳(メタデータ) (2021-12-06T07:58:53Z) - Query Focused Multi-Document Summarization with Distant Supervision [88.39032981994535]
既存の作業は、クエリとテキストセグメント間の関連性を推定する検索スタイルの手法に大きく依存している。
本稿では,クエリに関連するセグメントを推定するための個別モジュールを導入した粗大なモデリングフレームワークを提案する。
我々のフレームワークは、標準QFSベンチマークにおいて、強力な比較システムよりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-04-06T22:35:19Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。