論文の概要: On a Benefit of Mask Language Modeling: Robustness to Simplicity Bias
- arxiv url: http://arxiv.org/abs/2110.05301v1
- Date: Mon, 11 Oct 2021 14:18:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 17:39:36.078346
- Title: On a Benefit of Mask Language Modeling: Robustness to Simplicity Bias
- Title(参考訳): マスク言語モデリングの利点について:単純さバイアスに対するロバスト性
- Authors: Ting-Rui Chiang
- Abstract要約: 事前訓練言語モデル(MLM)の成功にもかかわらず、なぜ事前訓練が有用かは、まだ完全には答えられていない。
我々は、条件付き事前学習が、モデルが高レベルなスパイラルな特徴を堅牢にし、部分的には疑問に答えることを示す。
我々は、ヘイトスピーチ検出と名前認識タスクの実験を行うことで、我々の理論と実世界の実践のギャップを埋める。
- 参考スコア(独自算出の注目度): 4.7210697296108926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success of pretrained masked language models (MLM), why MLM
pretraining is useful is still a qeustion not fully answered. In this work we
theoretically and empirically show that MLM pretraining makes models robust to
lexicon-level spurious features, partly answer the question. We theoretically
show that, when we can model the distribution of a spurious feature $\Pi$
conditioned on the context, then (1) $\Pi$ is at least as informative as the
spurious feature, and (2) learning from $\Pi$ is at least as simple as learning
from the spurious feature. Therefore, MLM pretraining rescues the model from
the simplicity bias caused by the spurious feature. We also explore the
efficacy of MLM pretraing in causal settings. Finally we close the gap between
our theories and the real world practices by conducting experiments on the hate
speech detection and the name entity recognition tasks.
- Abstract(参考訳): MLM (Pretrained masked language model) の成功にもかかわらず、MLM事前訓練が有用である理由は、まだ完全には答えられていない。
本研究は,MLM事前学習が,レキシコンレベルの突発的特徴に対して頑健なモデルを実現することを理論的かつ実証的に示す。
理論的には、文脈で条件付けられたスプリアス機能$\pi$の分布をモデル化できる場合、(1)スプリアス機能と同等の情報量であり、(2)スプリアス機能から学ぶのと同じくらい単純である。
したがって、MLM事前訓練は、この突発的特徴に起因する単純さのバイアスからモデルを救う。
因果的設定におけるMLM前処理の有効性についても検討した。
最後に,我々の理論と実世界の実践とのギャップを,ヘイトスピーチ検出と名前認識タスクの実験によって埋める。
関連論文リスト
- Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - Representation Deficiency in Masked Language Modeling [107.39136254013042]
我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。
GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
論文 参考訳(メタデータ) (2023-02-04T01:54:17Z) - Frustratingly Simple Pretraining Alternatives to Masked Language
Modeling [10.732163031244651]
Masked Language Modeling (MLM) は自然言語処理においてテキスト表現の学習に広く用いられている。
本稿では,トークンレベルの分類タスクを表現の代替として用いた5つの簡単な事前学習目標について検討する。
論文 参考訳(メタデータ) (2021-09-04T08:52:37Z) - Fast, Effective and Self-Supervised: Transforming Masked LanguageModels
into Universal Lexical and Sentence Encoders [66.76141128555099]
余分なデータや監督なしでも、タスクを普遍的な語彙や文エンコーダに変換することが可能であることを示す。
極めて単純で高速で効果的なコントラスト学習手法であるMirror-BERTを提案する。
Mirror-BERT は完全に同一またはわずかに修正された文字列対を正の(同義の)微調整例として依存する。
語彙レベルと文レベルの両方のタスクにおいて、異なるドメインや異なる言語でMirror-BERTを使用したオフザシェルフよりも大幅に向上したことを報告します。
論文 参考訳(メタデータ) (2021-04-16T10:49:56Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Warped Language Models for Noise Robust Language Understanding [11.017026606760728]
Masked Language Models (MLM) は、与えられた文の空白をマスク付きトークンで埋める自己教師型ニューラルネットワークである。
本稿では,WLM上に構築された自然言語理解システムが,対話型言語よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-03T18:26:28Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。