論文の概要: Hierarchical Multitask Learning Approach for BERT
- arxiv url: http://arxiv.org/abs/2011.04451v1
- Date: Sat, 17 Oct 2020 09:23:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 09:13:22.034091
- Title: Hierarchical Multitask Learning Approach for BERT
- Title(参考訳): BERTの階層型マルチタスク学習手法
- Authors: \c{C}a\u{g}la Aksoy, Alper Ahmeto\u{g}lu, Tunga G\"ung\"or
- Abstract要約: BERTは、マスク付き言語モデル(masked LM)と次の文予測(NSP)である2つのタスクを解くことで埋め込みを学習する
BERT事前学習には階層型マルチタスク学習アプローチを採用する。
この結果から,タスク階層を事前学習に組み込むことで,組込み性能が向上することが示唆された。
- 参考スコア(独自算出の注目度): 0.36525095710982913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works show that learning contextualized embeddings for words is
beneficial for downstream tasks. BERT is one successful example of this
approach. It learns embeddings by solving two tasks, which are masked language
model (masked LM) and the next sentence prediction (NSP). The pre-training of
BERT can also be framed as a multitask learning problem. In this work, we adopt
hierarchical multitask learning approaches for BERT pre-training. Pre-training
tasks are solved at different layers instead of the last layer, and information
from the NSP task is transferred to the masked LM task. Also, we propose a new
pre-training task bigram shift to encode word order information. We choose two
downstream tasks, one of which requires sentence-level embeddings (textual
entailment), and the other requires contextualized embeddings of words
(question answering). Due to computational restrictions, we use the downstream
task data instead of a large dataset for the pre-training to see the
performance of proposed models when given a restricted dataset. We test their
performance on several probing tasks to analyze learned embeddings. Our results
show that imposing a task hierarchy in pre-training improves the performance of
embeddings.
- Abstract(参考訳): 近年の研究では,単語の文脈的埋め込み学習が下流作業に有用であることが示されている。
BERTはこのアプローチの成功例のひとつです。
隠れた言語モデル(masked LM)と次の文予測(NSP)の2つのタスクを解くことで埋め込みを学習する。
BERTの事前学習はマルチタスク学習問題としても考えられる。
本研究では,bert事前学習に階層型マルチタスク学習手法を採用する。
プレトレーニングタスクは、最終レイヤではなく異なるレイヤで解決され、NSPタスクからの情報は、マスクされたLMタスクに転送される。
また,単語順序情報をエンコードする新しい事前学習タスクbigramシフトを提案する。
2つのダウンストリームタスクを選択します。1つは文レベルの埋め込み(文の包含)、もう1つはコンテキスト化された単語の埋め込み(質問応答)が必要です。
計算量制限のため、制約付きデータセットが与えられた場合、提案モデルのパフォーマンスを事前トレーニングするために、大きなデータセットの代わりに下流タスクデータを使用する。
学習した埋め込みを分析するために、いくつかの調査タスクでパフォーマンスをテストします。
この結果から,タスク階層の事前学習により埋込み性能が向上することが示唆された。
関連論文リスト
- Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - TransPrompt v2: A Transferable Prompting Framework for Cross-task Text
Classification [37.824031151922604]
そこで本研究では,テキスト分類タスク間の数ショット学習を実現するための,トランスプロンプトv2を提案する。
類似したタスクを学習するために、メタラーナーを訓練するためにマルチタスクメタ知識獲得(MMA)手順を用いる。
遠隔タスクを学習するために、タスクタイプ記述をプロンプトに注入し、タイプ内およびタイプ間プロンプト埋め込みをキャプチャする。
論文 参考訳(メタデータ) (2023-08-29T04:16:57Z) - Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study [68.75670223005716]
BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。
実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
論文 参考訳(メタデータ) (2023-03-02T09:03:43Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - TaskMix: Data Augmentation for Meta-Learning of Spoken Intent
Understanding [0.0]
本稿では,タスクの多様性が低い場合のオーバーフィッティングという問題を,最先端のデータ拡張手法により悪化させることを示す。
本稿では,既存のタスクを線形に補間することで,新しいタスクを合成する簡単なTaskMixを提案する。
TaskMixはベースラインを上回り、タスクの多様性が低い場合の過度な適合を軽減し、高い場合でも性能が低下しないことを示す。
論文 参考訳(メタデータ) (2022-09-26T00:37:40Z) - FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。
FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文 参考訳(メタデータ) (2022-05-12T17:59:00Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z) - Learning Multiple Dense Prediction Tasks from Partially Annotated Data [41.821234589075445]
マルチタスク部分教師付き学習(multi-task part-supervised learning)と呼ぶ部分注釈付きデータ上で,複数の密接な予測タスクを共同で学習する。
本稿では,タスク関係を利用したマルチタスク学習手法を提案する。
提案手法は,既存の半教師付き学習手法や関連手法を3つの標準ベンチマークで上回り,非ラベルなタスクで効果的に活用できることを厳密に実証する。
論文 参考訳(メタデータ) (2021-11-29T19:03:12Z) - On Losses for Modern Language Models [18.56205816291398]
NSPは文脈分割と浅瀬意味信号による訓練に有害であることを示す。
マルチタスク事前トレーニングフレームワークで複数のタスクを使用すると、単一の補助タスクを使用するよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2020-10-04T21:44:15Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。