論文の概要: How does the task complexity of masked pretraining objectives affect
downstream performance?
- arxiv url: http://arxiv.org/abs/2305.10992v1
- Date: Thu, 18 May 2023 14:11:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:59:32.958605
- Title: How does the task complexity of masked pretraining objectives affect
downstream performance?
- Title(参考訳): masked pretraining objectiveのタスク複雑性は下流のパフォーマンスにどのように影響するのか?
- Authors: Atsuki Yamaguchi, Hiroaki Ozaki, Terufumi Morishita, Gaku Morio,
Yasuhiro Sogawa
- Abstract要約: Masked Language Modeling (MLM) は、広く使われている自己学習の目的である。
マスキングスキームの目的は、下流のタスクよりも優れています。
複雑性の欠如が劣化に不可欠な役割を担っていると仮定して、我々はどれだけの複雑さを実行する必要があるかを調査する。
- 参考スコア(独自算出の注目度): 10.958094201870871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked language modeling (MLM) is a widely used self-supervised pretraining
objective, where a model needs to predict an original token that is replaced
with a mask given contexts. Although simpler and computationally efficient
pretraining objectives, e.g., predicting the first character of a masked token,
have recently shown comparable results to MLM, no objectives with a masking
scheme actually outperform it in downstream tasks. Motivated by the assumption
that their lack of complexity plays a vital role in the degradation, we
validate whether more complex masked objectives can achieve better results and
investigate how much complexity they should have to perform comparably to MLM.
Our results using GLUE, SQuAD, and Universal Dependencies benchmarks
demonstrate that more complicated objectives tend to show better downstream
results with at least half of the MLM complexity needed to perform comparably
to MLM. Finally, we discuss how we should pretrain a model using a masked
objective from the task complexity perspective.
- Abstract(参考訳): masked language modeling (mlm) は広く使用されている自己教師付き事前学習目的であり、モデルが与えられたコンテキストでマスクに置き換えられたオリジナルのトークンを予測する必要がある。
単純で計算効率の良い事前学習目標(例えば、マスクトークンの最初の文字を予測する)は、最近mlmに匹敵する結果を示しているが、マスキングスキームを持つ目的が下流タスクで実際にそれを上回ることはない。
複雑性の欠如が劣化に重要な役割を担っているという仮定により、より複雑なマスクされた目的がより良い結果が得られるかどうかを検証し、MLMと相容れないほどに複雑な処理を行う必要があるかを検討する。
GLUE,SQuAD,Universal Dependenciesのベンチマークによる結果から,より複雑な目的は,MLMと互換性のある処理を行うために必要なMLMの少なくとも半分で,より複雑な結果を示す傾向があることが示された。
最後に、タスク複雑性の観点からマスクされた目的を用いてモデルを事前トレーニングする方法について論じる。
関連論文リスト
- SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Efficient Masked Autoencoders with Self-Consistency [46.60180434598024]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおいて、強力で一般的な自己教師付き事前学習手法として認識されている。
自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,MIMの事前学習効率の向上と整合性の向上を図る。
EMAEは、オブジェクト検出やセマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送性能を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Representation Deficiency in Masked Language Modeling [101.42649777874767]
我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。
GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
論文 参考訳(メタデータ) (2023-02-04T01:54:17Z) - Uniform Masking Prevails in Vision-Language Pretraining [26.513450527203453]
Masked Language Modeling (MLM) は、Vision-Language (VL) プリトレーニングの重要なコンポーネントであることが証明されている。
本稿では,マスキング率の増加が画像テキストマッチング(ITM)タスクの増大につながることを示す。
論文 参考訳(メタデータ) (2022-12-10T04:02:19Z) - Learning Better Masking for Better Language Model Pre-training [80.31112722910787]
Masked Language Modelingは、事前学習言語モデル(PrLM)の目的を認知するために広く使われている。
PrLMは、固定マスキング比を適用し、トレーニング全体を通して異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略を採用するのが一般的である。
本研究では,異なるトレーニング段階におけるマスキング率とマスキング内容の調整を適応的に行う2つのマスク手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T08:27:52Z) - Frustratingly Simple Pretraining Alternatives to Masked Language
Modeling [10.732163031244651]
Masked Language Modeling (MLM) は自然言語処理においてテキスト表現の学習に広く用いられている。
本稿では,トークンレベルの分類タスクを表現の代替として用いた5つの簡単な事前学習目標について検討する。
論文 参考訳(メタデータ) (2021-09-04T08:52:37Z) - On the Influence of Masking Policies in Intermediate Pre-training [46.75012465848036]
以前の研究によると、中間の事前トレーニングフェーズを挿入することで、下流タスクに似た目的が最終的なパフォーマンスを大幅に向上させることができる。
1) 中間的事前学習がどのような場合に有用か,(2)手作りの目的が与えられたタスクに最適か,(3) あるタスクのために設計された方針がそのタスクを超えて一般化可能であるか,などについては,いまだ不明である。
下流タスクの直接監督またはメタラーニングを通じてマスキングモデルを学ぶことにより、最適なポリシーの発見を自動化する方法を紹介します。
論文 参考訳(メタデータ) (2021-04-18T12:32:23Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z) - PMI-Masking: Principled masking of correlated spans [46.36098771676867]
ランダムなマスキングトークンは、マスキング言語モデル(MLM)の事前訓練における共通の欠陥を構成する
我々はPMI(Pointwise Mutual Information)の概念に基づくマスク方式PMI-Maskingを提案する。
PMI-Maskingはトレーニング時間の半分の時間で従来のマスキング手法の性能に到達し、トレーニング終了時の性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2020-10-05T07:19:52Z) - Effective Unsupervised Domain Adaptation with Adversarially Trained
Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。
本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-05T01:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。