論文の概要: Multi-task Learning with Multi-head Attention for Multi-choice Reading
Comprehension
- arxiv url: http://arxiv.org/abs/2003.04992v1
- Date: Wed, 26 Feb 2020 16:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 14:08:01.023728
- Title: Multi-task Learning with Multi-head Attention for Multi-choice Reading
Comprehension
- Title(参考訳): マルチタスク学習による複数選択読解のためのマルチタスク学習
- Authors: Hui Wan
- Abstract要約: この注記は、DREAMタスクにおける新しい最先端結果の文書化である。
さらに2つのマルチタスク読解タスクでマルチタスク学習を行う。
- 参考スコア(独自算出の注目度): 2.0329245344902813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple-choice Machine Reading Comprehension (MRC) is an important and
challenging Natural Language Understanding (NLU) task, in which a machine must
choose the answer to a question from a set of choices, with the question placed
in context of text passages or dialog. In the last a couple of years the NLU
field has been revolutionized with the advent of models based on the
Transformer architecture, which are pretrained on massive amounts of
unsupervised data and then fine-tuned for various supervised learning NLU
tasks. Transformer models have come to dominate a wide variety of leader-boards
in the NLU field; in the area of MRC, the current state-of-the-art model on the
DREAM dataset (see[Sunet al., 2019]) fine tunes Albert, a large pretrained
Transformer-based model, and addition-ally combines it with an extra layer of
multi-head attention between context and question-answer[Zhuet al., 2020].The
purpose of this note is to document a new state-of-the-art result in the DREAM
task, which is accomplished by, additionally, performing multi-task learning on
two MRC multi-choice reading comprehension tasks (RACE and DREAM).
- Abstract(参考訳): 複数選択機械読解理解(Multi-choice Machine Reading Comprehension、MRC)は、自然言語理解(NLU)タスクであり、機械はテキストの文節やダイアログの文脈に置かれた質問から質問に対する答えを選択する必要がある。
ここ数年、NLUフィールドはTransformerアーキテクチャに基づくモデルの出現によって革新され、大量の教師なしデータに基づいて事前訓練され、さまざまな教師付き学習NLUタスクのために微調整される。
mrcの領域では、現在のドリームデータセットの最先端モデル([sunet al., 2019]参照)が、大きな事前学習されたトランスフォーマーベースのモデルであるalbertを微調整し、それとコンテキストと質問者間の多層的注意の層を付加的に組み合わせています(zhuet al., 2020)。
本研究の目的は,夢タスクにおける新たな最先端の成果を文書化することであり,それに加えて,2つのmrcマルチチョイス読解タスク(レースとドリーム)でマルチタスク学習を行うことである。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing [17.92378239787507]
DMLM(Decoder-only Discrete Multimodal Language Model)を提案する。
DMLMは、複数のタスク(ASR、T2S、S2TTなど)とモダリティ(テキスト、音声、ビジョン)に柔軟に適用できる。
その結果,DMLMは複数のタスクやデータセットにまたがって,教師なしと教師なしのトレーニングの組み合わせによって大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2024-06-04T20:08:25Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Making Small Language Models Better Multi-task Learners with
Mixture-of-Task-Adapters [13.6682552098234]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクにおいて、驚くべきゼロショット学習性能を達成した。
マルチタスク学習者に対して,小型言語モデルに基づくmixTure-of-task-adapterを効果的に構築するシステムであるALTERを提案する。
少ない計算コストでアダプタ間の協調を最適化する2段階の学習手法を提案する。
論文 参考訳(メタデータ) (2023-09-20T03:39:56Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - Few-shot Multimodal Multitask Multilingual Learning [0.0]
我々は、事前学習された視覚と言語モデルを適用することで、マルチモーダルマルチタスク(FM3)設定のための数ショット学習を提案する。
FM3は、ビジョンと言語領域における最も顕著なタスクと、それらの交差点を学習する。
論文 参考訳(メタデータ) (2023-02-19T03:48:46Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - MoCA: Incorporating Multi-stage Domain Pretraining and Cross-guided
Multimodal Attention for Textbook Question Answering [7.367945534481411]
テキスト質問応答タスクに対して,多段階事前学習とマルチモーダルクロスアテンションを取り入れたMoCAという新しいモデルを提案する。
実験結果から,本モデルの精度が2.21%, 2.43%向上し, 検証精度が2.21%, テストスプリットが2.43%向上した。
論文 参考訳(メタデータ) (2021-12-06T07:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。