論文の概要: Inconsistencies in Masked Language Models
- arxiv url: http://arxiv.org/abs/2301.00068v3
- Date: Fri, 23 Feb 2024 05:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 18:46:38.326285
- Title: Inconsistencies in Masked Language Models
- Title(参考訳): マスキング言語モデルにおける不整合
- Authors: Tom Young, Yunan Chen, Yang You
- Abstract要約: Masked Language Model (MLM) は、マスキングされた位置におけるトークンの分布をシーケンスで提供することができる。
異なるマスキングパターンに対応する分布は、かなりの矛盾を示す可能性がある。
本稿では,条件文の集合(Ensemble of Conditionals)と呼ばれる fors の推論時間戦略を提案する。
- 参考スコア(独自算出の注目度): 20.320583166619528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to predict masked tokens in a sequence has been shown to be a
helpful pretraining objective for powerful language models such as PaLM2. After
training, such masked language models (MLMs) can provide distributions of
tokens in the masked positions in a sequence. However, this paper shows that
distributions corresponding to different masking patterns can demonstrate
considerable inconsistencies, i.e., they cannot be derived from a coherent
joint distribution when considered together.
This fundamental flaw in MLMs can lead to self-contradictory behaviors during
inference. On various benchmark datasets including MMLU, MLMs can give
different predictions to the same input question. From BERT-base to UL2-20B, we
show that such inconsistencies exist ubiquitously in MLMs of diverse sizes and
configurations. In light of our observations, we further propose an
inference-time strategy for MLMs called Ensemble of Conditionals. It jointly
considers a selected range of inconsistent conditionals directly produced by
the MLM for the final prediction, which often leads to considerable accuracy
improvement.
- Abstract(参考訳): マスク付きトークンをシーケンスで予測する学習は、PaLM2のような強力な言語モデルにとって有用な事前学習対象であることが示されている。
トレーニング後、このようなマスキング言語モデル(MLM)は、マスキングされた位置におけるトークンの分布をシーケンスで提供することができる。
しかし, 異なるマスキングパターンに対応する分布は, 共に考えるとコヒーレントなジョイント分布から導出することはできない。
MLMのこの根本的な欠陥は、推論中に自己矛盾行動を引き起こす可能性がある。
MMLUを含む様々なベンチマークデータセットでは、MLMは同じ入力問題に対して異なる予測を与えることができる。
BERT-base からUL2-20B まで,様々なサイズや構成の MLM において,このような不整合が至るところに存在することを示す。
そこで本研究では,条件の集合という,MLMの予測時間戦略をさらに提案する。
最終予測のために mlm が直接生成する不整合条件式の選択範囲を共同で考慮し、しばしばかなりの精度向上をもたらす。
関連論文リスト
- Set-Based Prompting: Provably Solving the Language Model Order Dependency Problem [18.020492646988746]
本稿では,LLMの出力が指定されたサブシーケンスのセットに順序依存しないことを保証する手法であるSet-Based Promptingを提案する。
我々の入力が分布外であるにもかかわらず、期待される精度への影響は小さく、予測は、一様に選択された応答のシャッフルの順序を超える。
論文 参考訳(メタデータ) (2024-06-04T16:09:13Z) - Towards Probabilistically-Sound Beam Search with Masked Language Models [0.0]
ビームサーチマスキング言語モデル(MLM)は,分布上の結合確率が得られないため,部分的には困難である。
このような分布を推定することは、古代のテキスト復元やタンパク質工学といったドメイン固有の重要な応用がある。
ここでは,系列を用いたビームサーチの確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-02-22T23:36:26Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - Deriving Language Models from Masked Language Models [12.628196757545979]
Masked Language Model (MLM) は言語上の分布を明確に定義していない。
最近の研究は、それらを生成と得点の目的で暗黙的に扱っている。
論文 参考訳(メタデータ) (2023-05-24T18:42:45Z) - Representation Deficiency in Masked Language Modeling [107.39136254013042]
我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。
GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
論文 参考訳(メタデータ) (2023-02-04T01:54:17Z) - Transcormer: Transformer for Sentence Scoring with Sliding Language
Modeling [95.9542389945259]
文スコアリングは文の可能性を測ることを目的としており、多くの自然言語処理シナリオで広く使われている。
文スコアリングのための新しいテキストスライディング言語モデリング(SLM)を備えたトランスフォーマーモデルであるtextitTranscormerを提案する。
論文 参考訳(メタデータ) (2022-05-25T18:00:09Z) - Exposing the Implicit Energy Networks behind Masked Language Models via
Metropolis--Hastings [57.133639209759615]
我々は,エネルギーに基づくシーケンスモデルとしてシーケンスを解釈し,訓練者から導出される2つのエネルギーパラメトリゼーションを提案する。
我々はメトロポリス・ハスティングス・モンテカルロのアルゴリズムに基づく抽出可能なエンフスキームを開発した。
提案手法の有効性を,これらのエネルギーモデルから得られた試料の品質を探索することによって検証する。
論文 参考訳(メタデータ) (2021-06-04T22:04:30Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - MLMLM: Link Prediction with Mean Likelihood Masked Language Model [14.672283581769774]
知識ベース(KB)は、クエリ、検証、解釈が容易である。
BERT などの Masked Models (MLM) は、計算能力と生のテキストデータとともにスケールする。
リンク予測を行うために異なるエンティティを生成する平均可能性を比較する手法として,平均的類似性マスケッド言語モデルを提案する。
論文 参考訳(メタデータ) (2020-09-15T13:11:13Z) - Encoder-Decoder Models Can Benefit from Pre-trained Masked Language
Models in Grammatical Error Correction [54.569707226277735]
従来の方法はEncDecモデルに適用した場合に潜在的な欠点がある。
提案手法では, コーパスを微調整し, GECモデルに付加的な特徴として出力を微調整する。
BEA 2019とCoNLL-2014ベンチマークにおける最高のパフォーマンスモデルのパフォーマンス。
論文 参考訳(メタデータ) (2020-05-03T04:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。