Fugu-MT 論文翻訳(概要): Multi-task Learning with Multi-head Attention for Multi-choice Reading Comprehension

論文の概要: Multi-task Learning with Multi-head Attention for Multi-choice Reading Comprehension

arxiv url: http://arxiv.org/abs/2003.04992v1
Date: Wed, 26 Feb 2020 16:32:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-28 14:08:01.023728
Title: Multi-task Learning with Multi-head Attention for Multi-choice Reading Comprehension
Title（参考訳）: マルチタスク学習による複数選択読解のためのマルチタスク学習
Authors: Hui Wan
Abstract要約: この注記は、DREAMタスクにおける新しい最先端結果の文書化である。さらに2つのマルチタスク読解タスクでマルチタスク学習を行う。
参考スコア（独自算出の注目度）: 2.0329245344902813
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multiple-choice Machine Reading Comprehension (MRC) is an important and challenging Natural Language Understanding (NLU) task, in which a machine must choose the answer to a question from a set of choices, with the question placed in context of text passages or dialog. In the last a couple of years the NLU field has been revolutionized with the advent of models based on the Transformer architecture, which are pretrained on massive amounts of unsupervised data and then fine-tuned for various supervised learning NLU tasks. Transformer models have come to dominate a wide variety of leader-boards in the NLU field; in the area of MRC, the current state-of-the-art model on the DREAM dataset (see[Sunet al., 2019]) fine tunes Albert, a large pretrained Transformer-based model, and addition-ally combines it with an extra layer of multi-head attention between context and question-answer[Zhuet al., 2020].The purpose of this note is to document a new state-of-the-art result in the DREAM task, which is accomplished by, additionally, performing multi-task learning on two MRC multi-choice reading comprehension tasks (RACE and DREAM).
Abstract（参考訳）: 複数選択機械読解理解(Multi-choice Machine Reading Comprehension、MRC)は、自然言語理解(NLU)タスクであり、機械はテキストの文節やダイアログの文脈に置かれた質問から質問に対する答えを選択する必要がある。ここ数年、NLUフィールドはTransformerアーキテクチャに基づくモデルの出現によって革新され、大量の教師なしデータに基づいて事前訓練され、さまざまな教師付き学習NLUタスクのために微調整される。 mrcの領域では、現在のドリームデータセットの最先端モデル([sunet al., 2019]参照)が、大きな事前学習されたトランスフォーマーベースのモデルであるalbertを微調整し、それとコンテキストと質問者間の多層的注意の層を付加的に組み合わせています(zhuet al., 2020)。本研究の目的は,夢タスクにおける新たな最先端の成果を文書化することであり,それに加えて,2つのmrcマルチチョイス読解タスク(レースとドリーム)でマルチタスク学習を行うことである。

関連論文リスト

Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey [93.72125112643596]
Next Token Prediction (NTP)は、機械学習タスクの多目的な学習目標である。本調査では,マルチモーダル学習における理解と生成を一体化する包括的分類法を導入する。提案した分類法は,マルチモーダルトークン化,MMNTPモデルアーキテクチャ,統合タスク表現,データセットと評価,オープンチャレンジの5つの重要な側面を網羅している。
論文参考訳（メタデータ） (2024-12-16T05:02:25Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
MIDAS: Multi-level Intent, Domain, And Slot Knowledge Distillation for Multi-turn NLU [9.047800457694656]
MIDASはマルチレベルインテント,ドメイン,スロット知識の蒸留を多ターンNLUに適用する新しい手法である。我々は、SI検出、WSフィリング、会話レベルドメイン(CD)分類のための個別の教師を構築し、それぞれが特定の知識のために微調整されている。その結果,マルチターン会話理解におけるモデルの有効性が示された。
論文参考訳（メタデータ） (2024-08-15T13:28:18Z)
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文参考訳（メタデータ） (2024-06-12T16:44:50Z)
Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing [17.92378239787507]
DMLM(Decoder-only Discrete Multimodal Language Model)を提案する。 DMLMは、複数のタスク(ASR、T2S、S2TTなど)とモダリティ(テキスト、音声、ビジョン)に柔軟に適用できる。その結果,DMLMは複数のタスクやデータセットにまたがって,教師なしと教師なしのトレーニングの組み合わせによって大きなメリットがあることがわかった。
論文参考訳（メタデータ） (2024-06-04T20:08:25Z)
Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文参考訳（メタデータ） (2024-01-02T01:54:22Z)
Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (2023-12-20T18:59:58Z)
Making Small Language Models Better Multi-task Learners with Mixture-of-Task-Adapters [13.6682552098234]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクにおいて、驚くべきゼロショット学習性能を達成した。マルチタスク学習者に対して,小型言語モデルに基づくmixTure-of-task-adapterを効果的に構築するシステムであるALTERを提案する。少ない計算コストでアダプタ間の協調を最適化する2段階の学習手法を提案する。
論文参考訳（メタデータ） (2023-09-20T03:39:56Z)
Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。 Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文参考訳（メタデータ） (2023-06-15T12:45:25Z)
Few-shot Multimodal Multitask Multilingual Learning [0.0]
我々は、事前学習された視覚と言語モデルを適用することで、マルチモーダルマルチタスク(FM3)設定のための数ショット学習を提案する。 FM3は、ビジョンと言語領域における最も顕著なタスクと、それらの交差点を学習する。
論文参考訳（メタデータ） (2023-02-19T03:48:46Z)
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文参考訳（メタデータ） (2023-02-01T12:40:03Z)
MoCA: Incorporating Multi-stage Domain Pretraining and Cross-guided Multimodal Attention for Textbook Question Answering [7.367945534481411]
テキスト質問応答タスクに対して,多段階事前学習とマルチモーダルクロスアテンションを取り入れたMoCAという新しいモデルを提案する。実験結果から,本モデルの精度が2.21%, 2.43%向上し, 検証精度が2.21%, テストスプリットが2.43%向上した。
論文参考訳（メタデータ） (2021-12-06T07:58:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。