論文の概要: On the Inconsistencies of Conditionals Learned by Masked Language Models
- arxiv url: http://arxiv.org/abs/2301.00068v1
- Date: Fri, 30 Dec 2022 22:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 13:49:48.436938
- Title: On the Inconsistencies of Conditionals Learned by Masked Language Models
- Title(参考訳): マスケード言語モデルによる条件の整合性について
- Authors: Tom Young, Yang You
- Abstract要約: マスケッド言語モデルは、双方向コンテキストで条件付けられたトークンの分布を提供することができる。
このような条件は、しばしばかなりの矛盾を示すこと、すなわち、コヒーレントな関節分布から導出できないことを示す。
- 参考スコア(独自算出の注目度): 9.693603503575483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to predict masked tokens in a sequence has been shown to be a
powerful pretraining objective for large-scale language models. After training,
such masked language models can provide distributions of tokens conditioned on
bidirectional context.
In this short draft, we show that such bidirectional conditionals often
demonstrate considerable inconsistencies, i.e., they can not be derived from a
coherent joint distribution when considered together. We empirically quantify
such inconsistencies in the simple scenario of bigrams for two common styles of
masked language models: T5-style and BERT-style. For example, we show that T5
models often confuse its own preference regarding two similar bigrams.
Such inconsistencies may represent a theoretical pitfall for the research
work on sampling sequences based on the bidirectional conditionals learned by
BERT-style MLMs. This phenomenon also means that T5-style MLMs capable of
infilling will generate discrepant results depending on how much masking is
given, which may represent a particular trust issue.
- Abstract(参考訳): シーケンス内のマスクトークンを予測する学習は、大規模言語モデルの強力な事前学習目標であることが示されている。
トレーニング後、このようなマスキング言語モデルは、双方向コンテキストで条件付けられたトークンの分布を提供することができる。
この短い草案では、このような双方向条件は、しばしばかなりの矛盾、すなわち、一緒に考えるときの一貫性のある関節分布から導出できないことを示す。
マスク付き言語モデルの一般的なスタイルである t5 形式と bert 形式に対して,bigram の単純なシナリオにおいて,このような矛盾を経験的に定量化する。
例えば、T5モデルは2つの類似のビッグラムに関して、その好みを混乱させることが多い。
このような矛盾は、BERTスタイルのMLMによって学習された双方向条件に基づくサンプリングシーケンスの研究における理論的落とし穴となる可能性がある。
この現象はまた、マスクの量によってT5スタイルのMLMが相違する結果をもたらすことを意味しており、これは特定の信頼の問題を表している可能性がある。
関連論文リスト
- Set-Based Prompting: Provably Solving the Language Model Order Dependency Problem [18.020492646988746]
本稿では,LLMの出力が指定されたサブシーケンスのセットに順序依存しないことを保証する手法であるSet-Based Promptingを提案する。
我々の入力が分布外であるにもかかわらず、期待される精度への影響は小さく、予測は、一様に選択された応答のシャッフルの順序を超える。
論文 参考訳(メタデータ) (2024-06-04T16:09:13Z) - Towards Probabilistically-Sound Beam Search with Masked Language Models [0.0]
ビームサーチマスキング言語モデル(MLM)は,分布上の結合確率が得られないため,部分的には困難である。
このような分布を推定することは、古代のテキスト復元やタンパク質工学といったドメイン固有の重要な応用がある。
ここでは,系列を用いたビームサーチの確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-02-22T23:36:26Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - Deriving Language Models from Masked Language Models [12.628196757545979]
Masked Language Model (MLM) は言語上の分布を明確に定義していない。
最近の研究は、それらを生成と得点の目的で暗黙的に扱っている。
論文 参考訳(メタデータ) (2023-05-24T18:42:45Z) - Representation Deficiency in Masked Language Modeling [107.39136254013042]
我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。
GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
論文 参考訳(メタデータ) (2023-02-04T01:54:17Z) - Transcormer: Transformer for Sentence Scoring with Sliding Language
Modeling [95.9542389945259]
文スコアリングは文の可能性を測ることを目的としており、多くの自然言語処理シナリオで広く使われている。
文スコアリングのための新しいテキストスライディング言語モデリング(SLM)を備えたトランスフォーマーモデルであるtextitTranscormerを提案する。
論文 参考訳(メタデータ) (2022-05-25T18:00:09Z) - Exposing the Implicit Energy Networks behind Masked Language Models via
Metropolis--Hastings [57.133639209759615]
我々は,エネルギーに基づくシーケンスモデルとしてシーケンスを解釈し,訓練者から導出される2つのエネルギーパラメトリゼーションを提案する。
我々はメトロポリス・ハスティングス・モンテカルロのアルゴリズムに基づく抽出可能なエンフスキームを開発した。
提案手法の有効性を,これらのエネルギーモデルから得られた試料の品質を探索することによって検証する。
論文 参考訳(メタデータ) (2021-06-04T22:04:30Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - MLMLM: Link Prediction with Mean Likelihood Masked Language Model [14.672283581769774]
知識ベース(KB)は、クエリ、検証、解釈が容易である。
BERT などの Masked Models (MLM) は、計算能力と生のテキストデータとともにスケールする。
リンク予測を行うために異なるエンティティを生成する平均可能性を比較する手法として,平均的類似性マスケッド言語モデルを提案する。
論文 参考訳(メタデータ) (2020-09-15T13:11:13Z) - Encoder-Decoder Models Can Benefit from Pre-trained Masked Language
Models in Grammatical Error Correction [54.569707226277735]
従来の方法はEncDecモデルに適用した場合に潜在的な欠点がある。
提案手法では, コーパスを微調整し, GECモデルに付加的な特徴として出力を微調整する。
BEA 2019とCoNLL-2014ベンチマークにおける最高のパフォーマンスモデルのパフォーマンス。
論文 参考訳(メタデータ) (2020-05-03T04:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。