論文の概要: On the Inductive Bias of Masked Language Modeling: From Statistical to
Syntactic Dependencies
- arxiv url: http://arxiv.org/abs/2104.05694v1
- Date: Mon, 12 Apr 2021 17:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 18:10:25.229734
- Title: On the Inductive Bias of Masked Language Modeling: From Statistical to
Syntactic Dependencies
- Title(参考訳): マスケッド言語モデリングの帰納的バイアスについて:統計的から構文的依存性へ
- Authors: Tianyi Zhang and Tatsunori Hashimoto
- Abstract要約: 教師なしの方法でトークンをマスキングし予測することは、言語構造と下流のパフォーマンス向上をもたらす。
最近の理論では、予め訓練された言語モデルは、暗黙的にクローゼ還元として機能するマスクを介して有用な誘導バイアスを獲得することを示唆している。
本研究では,このようなクローゼのようなマスクだけでは,ランダムマスキング戦略の成功を説明できないことを示す。
- 参考スコア(独自算出の注目度): 8.370942516424817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how masking and predicting tokens in an unsupervised fashion can
give rise to linguistic structures and downstream performance gains. Recent
theories have suggested that pretrained language models acquire useful
inductive biases through masks that implicitly act as cloze reductions for
downstream tasks. While appealing, we show that the success of the random
masking strategy used in practice cannot be explained by such cloze-like masks
alone. We construct cloze-like masks using task-specific lexicons for three
different classification datasets and show that the majority of pretrained
performance gains come from generic masks that are not associated with the
lexicon. To explain the empirical success of these generic masks, we
demonstrate a correspondence between the Masked Language Model (MLM) objective
and existing methods for learning statistical dependencies in graphical models.
Using this, we derive a method for extracting these learned statistical
dependencies in MLMs and show that these dependencies encode useful inductive
biases in the form of syntactic structures. In an unsupervised parsing
evaluation, simply forming a minimum spanning tree on the implied statistical
dependence structure outperforms a classic method for unsupervised parsing
(58.74 vs. 55.91 UUAS).
- Abstract(参考訳): 教師なしの方法でトークンのマスキングと予測が,言語構造と下流のパフォーマンス向上をいかに生み出すかを検討する。
最近の理論では、事前訓練された言語モデルは下流タスクのクローズ削減として暗黙的に作用するマスクを通して有用な帰納的バイアスを得ることが示唆されている。
しかし,このようなクローゼ様マスクだけでは,実際に使用されるランダムマスキング戦略の成功は説明できないことを示す。
3つの分類データセットに対してタスク固有のレキシコンを用いてクローゼ様マスクを構築し,プリトレーニングされたパフォーマンス向上の大部分は、レキシコンとは無関係な汎用マスクによるものであることを示す。
これらの汎用マスクの実証的な成功を説明するために,マスケッド言語モデル(MLM)の目的と,グラフィカルモデルにおける統計的依存を学習するための既存の手法との対応性を示す。
これを用いて,MLMにおけるこれらの学習された統計的依存関係を抽出し,それらの依存関係が構文構造の形で有用な帰納的バイアスをコードしていることを示す。
教師なし解析評価では、暗黙の統計依存構造上に最小のスパンニングツリーを形成するだけで、教師なし解析の古典的手法(58.74 vs. 55.91 UUAS)より優れる。
関連論文リスト
- Robust Infidelity: When Faithfulness Measures on Masked Language Models Are Misleading [5.124348720450654]
繰り返しマスキングは、それと同等のトランスフォーマーエンコーダテキスト分類器間の忠実度スコアに大きな変化をもたらすことを示す。
本稿では,反復型マスキングを用いた解釈可能性比較の原則的比較を損なうタスク固有の考察を考察する。
論文 参考訳(メタデータ) (2023-08-13T15:44:39Z) - Contextual Distortion Reveals Constituency: Masked Language Models are
Implicit Parsers [7.558415495951758]
マスク付き言語モデル(LM)から解析木を抽出する新しい手法を提案する。
本手法は,言語摂動による文脈表現の歪みに基づいて,各スパンのスコアを算出する。
本手法は,マスク付きLMを用いた英語における従来の最先端手法を一貫して上回り,多言語環境での優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T13:10:48Z) - Self-Evolution Learning for Discriminative Language Model Pretraining [103.57103957631067]
自己進化学習(Self-Evolution Learning、SE)は、単純で効果的なトークンマスキングと学習方法である。
SEは情報的だが未探索のトークンを学習することに集中し、新しいToken固有のラベル平滑化アプローチを導入してトレーニングを適応的に調整する。
論文 参考訳(メタデータ) (2023-05-24T16:00:54Z) - Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual
Mask Annotations [86.47908754383198]
Open-Vocabulary (OV) 法は、大規模な画像キャプチャペアと視覚言語モデルを利用して、新しいカテゴリを学習する。
提案手法は,イメージキャプションペアに存在するオブジェクトに対して,事前学習された視覚言語モデルの局所化能力を活用することで,擬似マスクアノテーションを生成する。
擬似マスクを用いてトレーニングした手法は,MS-COCOデータセットとOpenImagesデータセットのmAPスコアを大幅に改善する。
論文 参考訳(メタデータ) (2023-03-29T17:58:39Z) - Extreme Masking for Learning Instance and Distributed Visual
Representations [50.152264456036114]
本稿では,個々のトークン上の分散表現を同時に学習するためのスケーラブルなアプローチと,総合的なインスタンス表現を提案する。
分散トークンを表すために自己アテンションブロックを使用し、続いてクロスアテンションブロックを使用して全体インスタンスを集約します。
我々のモデルであるExtreMAは、未成熟なサブセットからのインスタンス表現をトレーニングして、無傷な入力からそれを予測する、プレーンなBYOLアプローチに従っています。
論文 参考訳(メタデータ) (2022-06-09T17:59:43Z) - Comparing Text Representations: A Theory-Driven Approach [2.893558866535708]
我々は、テキストデータセットの特定の特徴に適合するように、計算学習理論から一般的なツールを適応させる。
本稿では,表現とタスクの整合性を評価する手法を提案する。
この方法は、分類に基づくNLPタスクの難易度を校正し、定量的に測定する。
論文 参考訳(メタデータ) (2021-09-15T17:48:19Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。