論文の概要: A Better Way to Do Masked Language Model Scoring
- arxiv url: http://arxiv.org/abs/2305.10588v2
- Date: Tue, 23 May 2023 15:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 23:16:15.482274
- Title: A Better Way to Do Masked Language Model Scoring
- Title(参考訳): Masked Language Model Scoringのためのより良い方法
- Authors: Carina Kauf and Anna Ivanova
- Abstract要約: 自己回帰言語モデルの下で与えられた文のログ類似度を推定するのは簡単である。
マスキング言語モデルでは、文のログ類似度を推定する直接的な方法はない。
適応されたメトリック(PLL-word-l2r)は、元のメトリックとすべての単語内トークンがマスクされたメトリックの両方より優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating the log-likelihood of a given sentence under an autoregressive
language model is straightforward: one can simply apply the chain rule and sum
the log-likelihood values for each successive token. However, for masked
language models (MLMs), there is no direct way to estimate the log-likelihood
of a sentence. To address this issue, Salazar et al. (2020) propose to estimate
sentence pseudo-log-likelihood (PLL) scores, computed by successively masking
each sentence token, retrieving its score using the rest of the sentence as
context, and summing the resulting values. Here, we demonstrate that the
original PLL method yields inflated scores for out-of-vocabulary words and
propose an adapted metric, in which we mask not only the target token, but also
all within-word tokens to the right of the target. We show that our adapted
metric (PLL-word-l2r) outperforms both the original PLL metric and a PLL metric
in which all within-word tokens are masked. In particular, it better satisfies
theoretical desiderata and better correlates with scores from autoregressive
models. Finally, we show that the choice of metric affects even tightly
controlled, minimal pair evaluation benchmarks (such as BLiMP), underscoring
the importance of selecting an appropriate scoring metric for evaluating MLM
properties.
- Abstract(参考訳): 自己回帰言語モデルの下で与えられた文のログ様度を推定するのは簡単である: チェーンルールを適用して、連続するトークンごとにログ様度値を和化することができる。
しかし、マスク言語モデル(mlms)では、文のログ類似度を推定する直接的方法は存在しない。
Salazar et al. (2020) は、各文トークンを連続的にマスキングし、残りの文を文脈として取り出し、結果の値を和らげることによって計算される文擬似log-likelihood (PLL) スコアを推定することを提案する。
そこで本研究では,原文のpll法が語彙外の単語に対して膨らませたスコアを与え,対象のトークンだけでなく,単語内のすべてのトークンをターゲットの右にマスクする適応指標を提案する。
適応された測度 (PLL-word-l2r) は、元のPLL測度とPLL測度の両方に優れており、すべての単語内トークンがマスクされていることを示す。
特に、理論的なデシデラタを満足し、自己回帰モデルからのスコアとよりよく相関する。
最後に,MLM特性を評価するための適切な評価基準を選択することの重要性を強調し,指標の選択がより厳密に制御された最小ペア評価ベンチマーク(BLiMPなど)に影響を与えることを示す。
関連論文リスト
- Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Language Generation with Strictly Proper Scoring Rules [70.340673452404]
本稿では,非局所的なスコアリングルールを用いた言語モデリングが可能な,スコアリングルールを言語生成に適用するための戦略を提案する。
対数スコアの代替として、ブライアスコアと球面スコアの2つの古典的厳密なスコアルールを用いて言語生成モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-29T09:09:00Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Assessing Keyness using Permutation Tests [0.0]
トークン単位のサンプリングモデルを,トークンではなく文書のサンプルであるコーパスモデルに置き換える。
トークンがドキュメント内やドキュメント間でどのように整理されているかという仮定は必要ありません。
論文 参考訳(メタデータ) (2023-08-25T13:52:57Z) - Zero-Shot Automatic Pronunciation Assessment [19.971348810774046]
本稿では,事前学習した音響モデル HuBERT に基づく新しいゼロショットAPA法を提案する。
speechocean762の実験結果から,提案手法は教師付き回帰ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-31T05:17:17Z) - Nonparametric Masked Language Modeling [113.71921977520864]
既存の言語モデル(LM)は、有限語彙上のソフトマックスでトークンを予測する。
NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。
NPMは、コントラスト目的と全コーパス検索に対するバッチ内近似で効率的に訓練することができる。
論文 参考訳(メタデータ) (2022-12-02T18:10:42Z) - Meta Objective Guided Disambiguation for Partial Label Learning [44.05801303440139]
メタ客観的ガイド型曖昧化(MoGD)を用いたラベル学習のための新しい枠組みを提案する。
MoGDは、小さな検証セットでメタ目標を解くことで、候補ラベルから基底トラスラベルを復元することを目的としている。
提案手法は,通常のSGDを用いた様々なディープネットワークを用いて容易に実装できる。
論文 参考訳(メタデータ) (2022-08-26T06:48:01Z) - Transcormer: Transformer for Sentence Scoring with Sliding Language
Modeling [95.9542389945259]
文スコアリングは文の可能性を測ることを目的としており、多くの自然言語処理シナリオで広く使われている。
文スコアリングのための新しいテキストスライディング言語モデリング(SLM)を備えたトランスフォーマーモデルであるtextitTranscormerを提案する。
論文 参考訳(メタデータ) (2022-05-25T18:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。