論文の概要: On the Inconsistencies of Conditionals Learned by Masked Language Models
- arxiv url: http://arxiv.org/abs/2301.00068v2
- Date: Sun, 8 Oct 2023 07:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 15:29:19.806877
- Title: On the Inconsistencies of Conditionals Learned by Masked Language Models
- Title(参考訳): マスケード言語モデルによる条件の整合性について
- Authors: Tom Young, Yang You
- Abstract要約: マスケッド言語モデルは、双方向コンテキストで条件付けられたトークンの分布を提供することができる。
一般的な仮定とは対照的に、そのような条件はしばしばかなりの矛盾を示す。
本研究では,モデルが直接生成する多くの不整合条件を共同で考える自己アンサンブルアルゴリズムであるEnsemble of Conditionalsを提案する。
- 参考スコア(独自算出の注目度): 10.654576970770076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to predict masked tokens in a sequence has been shown to be a
powerful pretraining objective for large language models. After training, such
masked language models can provide distributions of tokens conditioned on
bidirectional context.
In this paper, we show that contrary to popular assumptions, such
bidirectional conditionals often demonstrate considerable inconsistencies,
i.e., they cannot be derived from a coherent joint distribution when considered
together. We empirically quantify such inconsistencies in the simple scenario
of bigram comparison for two common styles of masked language models: T5-style
and BERT-style. For example, we show that T5 models often confuse their own
preference regarding two similar bigrams. We show that inconsistencies exist
ubiquitously in masked language models of diverse sizes and configurations,
from RoBERTa-base to GLM-130B.
As an initial attempt to address this issue during the inference phase, we
propose Ensemble of Conditionals, a self-ensemble algorithm that jointly
considers many inconsistent conditionals directly produced by the MLM to
synthesize a distribution that is used as the model's final output. Such
ensembling improves open-source SOTA results on LAMBADA.
- Abstract(参考訳): シーケンス内のマスクトークンを予測する学習は、大規模言語モデルにとって強力な事前学習目標であることが示されている。
トレーニング後、このようなマスキング言語モデルは、双方向コンテキストで条件付けられたトークンの分布を提供することができる。
本稿では, 一般的な仮定とは対照的に, 両方向条件付き条件付きでは, かなりの不整合がしばしば示され, 両者が一緒に考えると, コヒーレントなジョイント分布から導出できないことを示した。
マスク言語モデルの一般的なスタイルである t5 形式と bert 形式について,bigram 比較の単純なシナリオにおいて,このような不一致を実証的に定量化する。
例えば、T5モデルは2つの類似のビッグラムに対する好みを混乱させることが多い。
本稿では,RoBERTa-base から GLM-130B に至るまで,さまざまなサイズや構成のマスキング言語モデルにおいて,不整合が至るところに存在することを示す。
推論フェーズにおいてこの問題に対処するための最初の試みとして,MLMが直接生成する多くの不整合条件を協調的に考慮し,モデルの最終出力として使用される分布を合成する自己アンサンブルアルゴリズムであるEnsemble of Conditionalsを提案する。
このようなアンサンブルは、LAMBADAのオープンソースSOTA結果を改善する。
関連論文リスト
- Set-Based Prompting: Provably Solving the Language Model Order Dependency Problem [18.020492646988746]
本稿では,LLMの出力が指定されたサブシーケンスのセットに順序依存しないことを保証する手法であるSet-Based Promptingを提案する。
我々の入力が分布外であるにもかかわらず、期待される精度への影響は小さく、予測は、一様に選択された応答のシャッフルの順序を超える。
論文 参考訳(メタデータ) (2024-06-04T16:09:13Z) - Towards Probabilistically-Sound Beam Search with Masked Language Models [0.0]
ビームサーチマスキング言語モデル(MLM)は,分布上の結合確率が得られないため,部分的には困難である。
このような分布を推定することは、古代のテキスト復元やタンパク質工学といったドメイン固有の重要な応用がある。
ここでは,系列を用いたビームサーチの確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-02-22T23:36:26Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - Deriving Language Models from Masked Language Models [12.628196757545979]
Masked Language Model (MLM) は言語上の分布を明確に定義していない。
最近の研究は、それらを生成と得点の目的で暗黙的に扱っている。
論文 参考訳(メタデータ) (2023-05-24T18:42:45Z) - Representation Deficiency in Masked Language Modeling [107.39136254013042]
我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。
GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
論文 参考訳(メタデータ) (2023-02-04T01:54:17Z) - Transcormer: Transformer for Sentence Scoring with Sliding Language
Modeling [95.9542389945259]
文スコアリングは文の可能性を測ることを目的としており、多くの自然言語処理シナリオで広く使われている。
文スコアリングのための新しいテキストスライディング言語モデリング(SLM)を備えたトランスフォーマーモデルであるtextitTranscormerを提案する。
論文 参考訳(メタデータ) (2022-05-25T18:00:09Z) - Exposing the Implicit Energy Networks behind Masked Language Models via
Metropolis--Hastings [57.133639209759615]
我々は,エネルギーに基づくシーケンスモデルとしてシーケンスを解釈し,訓練者から導出される2つのエネルギーパラメトリゼーションを提案する。
我々はメトロポリス・ハスティングス・モンテカルロのアルゴリズムに基づく抽出可能なエンフスキームを開発した。
提案手法の有効性を,これらのエネルギーモデルから得られた試料の品質を探索することによって検証する。
論文 参考訳(メタデータ) (2021-06-04T22:04:30Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - MLMLM: Link Prediction with Mean Likelihood Masked Language Model [14.672283581769774]
知識ベース(KB)は、クエリ、検証、解釈が容易である。
BERT などの Masked Models (MLM) は、計算能力と生のテキストデータとともにスケールする。
リンク予測を行うために異なるエンティティを生成する平均可能性を比較する手法として,平均的類似性マスケッド言語モデルを提案する。
論文 参考訳(メタデータ) (2020-09-15T13:11:13Z) - Encoder-Decoder Models Can Benefit from Pre-trained Masked Language
Models in Grammatical Error Correction [54.569707226277735]
従来の方法はEncDecモデルに適用した場合に潜在的な欠点がある。
提案手法では, コーパスを微調整し, GECモデルに付加的な特徴として出力を微調整する。
BEA 2019とCoNLL-2014ベンチマークにおける最高のパフォーマンスモデルのパフォーマンス。
論文 参考訳(メタデータ) (2020-05-03T04:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。