論文の概要: MoCA: Incorporating Multi-stage Domain Pretraining and Cross-guided
Multimodal Attention for Textbook Question Answering
- arxiv url: http://arxiv.org/abs/2112.02839v1
- Date: Mon, 6 Dec 2021 07:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 17:34:04.234932
- Title: MoCA: Incorporating Multi-stage Domain Pretraining and Cross-guided
Multimodal Attention for Textbook Question Answering
- Title(参考訳): moca: テキスト質問応答のための多段階事前学習とクロスガイド型マルチモーダル注意の導入
- Authors: Fangzhi Xu, Qika Lin, Jun Liu, Lingling Zhang, Tianzhe Zhao, Qi Chai,
Yudai Pan
- Abstract要約: テキスト質問応答タスクに対して,多段階事前学習とマルチモーダルクロスアテンションを取り入れたMoCAという新しいモデルを提案する。
実験結果から,本モデルの精度が2.21%, 2.43%向上し, 検証精度が2.21%, テストスプリットが2.43%向上した。
- 参考スコア(独自算出の注目度): 7.367945534481411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textbook Question Answering (TQA) is a complex multimodal task to infer
answers given large context descriptions and abundant diagrams. Compared with
Visual Question Answering (VQA), TQA contains a large number of uncommon
terminologies and various diagram inputs. It brings new challenges to the
representation capability of language model for domain-specific spans. And it
also pushes the multimodal fusion to a more complex level. To tackle the above
issues, we propose a novel model named MoCA, which incorporates multi-stage
domain pretraining and multimodal cross attention for the TQA task. Firstly, we
introduce a multi-stage domain pretraining module to conduct unsupervised
post-pretraining with the span mask strategy and supervised pre-finetune.
Especially for domain post-pretraining, we propose a heuristic generation
algorithm to employ the terminology corpus. Secondly, to fully consider the
rich inputs of context and diagrams, we propose cross-guided multimodal
attention to update the features of text, question diagram and instructional
diagram based on a progressive strategy. Further, a dual gating mechanism is
adopted to improve the model ensemble. The experimental results show the
superiority of our model, which outperforms the state-of-the-art methods by
2.21% and 2.43% for validation and test split respectively.
- Abstract(参考訳): Textbook Question Answering (TQA) は、大きなコンテキスト記述と豊富なダイアグラムの回答を推測する複雑なマルチモーダルタスクである。
Visual Question Answering (VQA)と比較すると、TQAは多くの一般的な用語と様々な図入力を含んでいる。
ドメイン固有のスパンに対する言語モデルの表現能力に新たな課題をもたらす。
そしてそれはまた、マルチモーダル融合をより複雑なレベルに押し上げる。
上記の課題に対処するため,TQAタスクに対して,マルチステージ領域事前学習とマルチモーダルクロスアテンションを組み込んだMoCAという新しいモデルを提案する。
まず,スパンマスク戦略で教師なしの事前訓練を行うマルチステージドメイン事前学習モジュールと,教師なし事前学習モジュールを提案する。
特にドメイン事前学習において,用語コーパスを利用するヒューリスティック生成アルゴリズムを提案する。
次に,コンテキストとダイアグラムのリッチな入力を十分に検討するために,テキスト,質問図,授業図の特徴をプログレッシブ・ストラテジーに基づいて更新するクロスガイド付きマルチモーダル・アテンションを提案する。
さらに、モデルアンサンブルを改善するために二重ゲーティング機構を採用する。
実験の結果,提案手法の精度は2.21%, 2.43%, 検証精度は2.21%, 評価精度は2.43%に向上した。
関連論文リスト
- Enhancing Textbook Question Answering Task with Large Language Models
and Retrieval Augmented Generation [3.948068081583197]
本稿では,テキスト質問応答(TQA)における領域外シナリオを扱う手法を提案する。
LLMモデルLlama-2の微調整とRAGの導入により、我々のアーキテクチャはベースラインよりも優れ、検証セットでは4.12%、非ダイアグラム多重選択質問では9.84%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-02-05T11:58:56Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - Multimodal Inverse Cloze Task for Knowledge-based Visual Question
Answering [4.114444605090133]
名前付きエンティティに関する知識に基づく視覚質問応答のための事前学習手法であるMultimodal Inverse Cloze Taskを提案する。
KVQAEは最近導入されたタスクで、知識ベースを使用して視覚的コンテキストに接地された名前付きエンティティに関する質問に答える。
提案手法は異なるニューラルネットワークアーキテクチャに適用可能であり, 9%の相対MRR, 15%の相対F1ゲインが検索および読解に有効である。
論文 参考訳(メタデータ) (2023-01-11T09:16:34Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Semantic Sentence Composition Reasoning for Multi-Hop Question Answering [1.773120658816994]
マルチホップ質問応答タスクに対する意味文合成推論手法を提案する。
事実文と多段階意味検索の組み合わせにより,本手法はモデル学習や推論において,より包括的な文脈情報を提供することができる。
実験の結果,既存の学習済み言語モデルを組み込んで,QASCタスクにおける既存のSOTA法を約9%向上させることができた。
論文 参考訳(メタデータ) (2022-03-01T00:35:51Z) - Unifying Architectures, Tasks, and Modalities Through a Simple
Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。
OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文 参考訳(メタデータ) (2022-02-07T10:38:21Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Document Modeling with Graph Attention Networks for Multi-grained
Machine Reading Comprehension [127.3341842928421]
Natural Questionsは、新しい挑戦的な機械読解ベンチマークである。
解答は2つあり、長解(典型的には1段落)と短解(長解の内にある1つ以上の実体)である。
既存の方法は、これらの2つのサブタスクをトレーニング中に個別に扱い、依存関係を無視します。
本稿では,文書を階層的にモデル化する多層機械読解フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-12T14:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。