論文の概要: The Distributional Hypothesis Does Not Fully Explain the Benefits of
Masked Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2310.16261v1
- Date: Wed, 25 Oct 2023 00:31:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 17:26:30.323848
- Title: The Distributional Hypothesis Does Not Fully Explain the Benefits of
Masked Language Model Pretraining
- Title(参考訳): 仮面言語モデル事前学習の利点を十分に説明できない分布仮説
- Authors: Ting-Rui Chiang, Dani Yogatama
- Abstract要約: マスク付き言語モデルを用いて事前学習したモデルのより優れたサンプル効率とより優れた一般化能力は、事前学習したデータの分布特性に符号化された意味的類似性に起因するかを検討する。
本研究は,モデル事前学習の限定的な理解と今後の研究方向性を示すものである。
- 参考スコア(独自算出の注目度): 27.144616560712493
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We analyze the masked language modeling pretraining objective function from
the perspective of the distributional hypothesis. We investigate whether better
sample efficiency and the better generalization capability of models pretrained
with masked language modeling can be attributed to the semantic similarity
encoded in the pretraining data's distributional property. Via a synthetic
dataset, our analysis suggests that distributional property indeed leads to the
better sample efficiency of pretrained masked language models, but does not
fully explain the generalization capability. We also conduct analyses over two
real-world datasets and demonstrate that the distributional property does not
explain the generalization ability of pretrained natural language models
either. Our results illustrate our limited understanding of model pretraining
and provide future research directions.
- Abstract(参考訳): 分布仮説の観点から,対象関数を事前学習するマスク付き言語モデルの解析を行う。
マスキング言語モデルにより事前学習されたモデルのサンプル効率と一般化能力が,事前学習データの分布特性にエンコードされる意味的類似性に起因しているかどうかを検討する。
合成データセットを用いて, 分布特性は仮学習されたマスキング言語モデルのサンプル効率の向上につながるが, 一般化機能を完全には説明できないことを示唆する。
また,2つの実世界のデータセットの解析を行い,その分布特性は,事前学習された自然言語モデルの一般化能力も説明できないことを示した。
本研究は,モデル事前学習の限定的な理解と今後の研究方向性を示すものである。
関連論文リスト
- LMD3: Language Model Data Density Dependence [78.76731603461832]
我々は,学習データ密度推定に基づいて,言語モデルタスクのパフォーマンスを個別の例レベルで解析する手法を開発した。
微調整データに対する制御的介入としてパラフレーズを用いた実験は、特定のテストクエリに対するトレーニング分布のサポートの増加が、測定可能な密度の増加をもたらすことを示した。
我々は,学習データのサブセットに対象モデルの予測が依存していることの統計的証拠を提供することができると結論付けた。
論文 参考訳(メタデータ) (2024-05-10T09:03:27Z) - On Masked Pre-training and the Marginal Likelihood [0.0]
Maskedプレトレーニングはランダムな入力次元を取り除き、不足した値を予測できるモデルを学ぶ。
本稿では,最適累積スコアリング関数を用いたマスク付き事前学習が,モデルの限界確率の最大化に対応していることを示す。
論文 参考訳(メタデータ) (2023-06-01T10:20:44Z) - On the Generalization of Diffusion Model [42.447639515467934]
生成したデータとトレーニングセットの相互情報によって測定される生成モデルの一般化を定義する。
実験的最適拡散モデルでは, 決定論的サンプリングによって生成されたデータは, すべてトレーニングセットに強く関連しており, 一般化が不十分であることを示す。
本稿では,経験的最適解が一般化問題を持たない別の学習目標を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:57Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Instance-Based Neural Dependency Parsing [56.63500180843504]
依存関係解析のための解釈可能な推論プロセスを持つニューラルモデルを開発する。
私たちのモデルはインスタンスベースの推論を採用しており、トレーニングセットのエッジと比較することで、依存関係のエッジを抽出し、ラベル付けします。
論文 参考訳(メタデータ) (2021-09-28T05:30:52Z) - Information-theoretic Evolution of Model Agnostic Global Explanations [10.921146104622972]
本論文では,数値・分類データに基づく分類モデルの挙動をグローバルに説明するためのルールを導出する新しいモデル非依存アプローチを提案する。
当社のアプローチは、主要なデジタルマーケティングスイートに展開されています。
論文 参考訳(メタデータ) (2021-05-14T16:52:16Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Exploring Lexical Irregularities in Hypothesis-Only Models of Natural
Language Inference [5.283529004179579]
自然言語推論(NLI)またはテキスト関連認識(RTE)は、文のペア間の関係を予測するタスクです。
包含を理解するモデルは前提と仮説の両方をエンコードするべきである。
Poliakらによる実験。
仮説でのみ観察されたパターンに対するこれらのモデルの強い好みを明らかにした。
論文 参考訳(メタデータ) (2021-01-19T01:08:06Z) - Video Prediction via Example Guidance [156.08546987158616]
ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。
本研究では,有効な将来状態の予測を効果的に行うための,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。