論文の概要: Using Selective Masking as a Bridge between Pre-training and Fine-tuning
- arxiv url: http://arxiv.org/abs/2211.13815v1
- Date: Thu, 24 Nov 2022 22:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:08:50.273733
- Title: Using Selective Masking as a Bridge between Pre-training and Fine-tuning
- Title(参考訳): 事前学習と微調整の橋渡しとしての選択的マスキング
- Authors: Tanish Lad, Himanshu Maheshwari, Shreyas Kottukkal, Radhika Mamidi
- Abstract要約: 本稿では,タスク固有のマスキングにより,下流タスクに対して事前学習したBERTモデルを調整する方法を提案する。
選択マスキング戦略はランダムマスキングよりも優れており,その有効性が示されている。
- 参考スコア(独自算出の注目度): 5.677685109155077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training a language model and then fine-tuning it for downstream tasks
has demonstrated state-of-the-art results for various NLP tasks. Pre-training
is usually independent of the downstream task, and previous works have shown
that this pre-training alone might not be sufficient to capture the
task-specific nuances. We propose a way to tailor a pre-trained BERT model for
the downstream task via task-specific masking before the standard supervised
fine-tuning. For this, a word list is first collected specific to the task. For
example, if the task is sentiment classification, we collect a small sample of
words representing both positive and negative sentiments. Next, a word's
importance for the task, called the word's task score, is measured using the
word list. Each word is then assigned a probability of masking based on its
task score. We experiment with different masking functions that assign the
probability of masking based on the word's task score. The BERT model is
further trained on MLM objective, where masking is done using the above
strategy. Following this standard supervised fine-tuning is done for different
downstream tasks. Results on these tasks show that the selective masking
strategy outperforms random masking, indicating its effectiveness.
- Abstract(参考訳): 言語モデルを事前学習し、下流タスクに微調整することで、様々なNLPタスクの最先端の結果が示されている。
事前トレーニングは通常、下流タスクとは独立しており、以前の研究は、この事前トレーニングだけではタスク固有のニュアンスをキャプチャするのに不十分であることを示した。
本稿では,タスク固有のマスキングによる下流タスクのための事前学習されたBERTモデルを,標準的な教師付き微調整の前に調整する方法を提案する。
このために、ワードリストは、最初にそのタスクに特化して収集される。
例えば、タスクが感情分類である場合、ポジティブな感情とネガティブな感情の両方を表す単語の小さなサンプルを収集します。
次に、単語リストを用いて、単語のタスクスコアと呼ばれるタスクに対する単語の重要性を測定する。
各単語はタスクスコアに基づいてマスキングの確率が割り当てられる。
我々は、単語のタスクスコアに基づいてマスキングの確率を割り当てる異なるマスキング機能の実験を行った。
BERTモデルは、上記の戦略を用いてマスキングを行うMLM目的に基づいてさらに訓練されている。
この標準に従って、異なる下流タスクのために教師付き微調整が行われる。
これらの課題の結果,選択的マスキング戦略はランダムマスキングよりも優れており,その効果が示された。
関連論文リスト
- Difference-Masking: Choosing What to Mask in Continued Pretraining [56.76782116221438]
本研究では,事前訓練中のマスクを自動的に選択するマスキング戦略である差分マスキングを導入する。
差分マスキングは、4つの言語のみ、マルチモーダルなビデオタスクにおいて、継続した事前学習設定のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-23T23:31:02Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z) - Zero-Shot Information Extraction as a Unified Text-to-Triple Translation [56.01830747416606]
我々は、テキストから3つの翻訳フレームワークに一連の情報抽出タスクを投入した。
タスク固有の入力テキストと出力トリプルの変換としてタスクを形式化する。
本稿では,オープン情報抽出におけるゼロショット性能について検討する。
論文 参考訳(メタデータ) (2021-09-23T06:54:19Z) - Frustratingly Simple Pretraining Alternatives to Masked Language
Modeling [10.732163031244651]
Masked Language Modeling (MLM) は自然言語処理においてテキスト表現の学習に広く用いられている。
本稿では,トークンレベルの分類タスクを表現の代替として用いた5つの簡単な事前学習目標について検討する。
論文 参考訳(メタデータ) (2021-09-04T08:52:37Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Hierarchical Multitask Learning Approach for BERT [0.36525095710982913]
BERTは、マスク付き言語モデル(masked LM)と次の文予測(NSP)である2つのタスクを解くことで埋め込みを学習する
BERT事前学習には階層型マルチタスク学習アプローチを採用する。
この結果から,タスク階層を事前学習に組み込むことで,組込み性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-10-17T09:23:04Z) - Self-Supervised Meta-Learning for Few-Shot Natural Language
Classification Tasks [40.97125791174191]
ラベルのないテキストから大規模でリッチなメタ学習タスク分布を生成するための自己教師型手法を提案する。
このメタトレーニングは、言語モデル事前学習の後に微調整を行うよりも、数ショットの一般化に繋がることを示す。
論文 参考訳(メタデータ) (2020-09-17T17:53:59Z) - Train No Evil: Selective Masking for Task-Guided Pre-Training [97.03615486457065]
一般的な事前学習と微調整の間を選択的にマスキングするタスク誘導事前学習段階を付加した3段階のフレームワークを提案する。
提案手法は,50%未満のコストで同等あるいはさらに優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-04-21T03:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。