Fugu-MT 論文翻訳(概要): Deriving Language Models from Masked Language Models

論文の概要: Deriving Language Models from Masked Language Models

arxiv url: http://arxiv.org/abs/2305.15501v1
Date: Wed, 24 May 2023 18:42:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 19:00:26.223385
Title: Deriving Language Models from Masked Language Models
Title（参考訳）: マスク言語モデルから言語モデルを引き出す
Authors: Lucas Torroba Hennigen, Yoon Kim
Abstract要約: Masked Language Model (MLM) は言語上の分布を明確に定義していない。最近の研究は、それらを生成と得点の目的で暗黙的に扱っている。
参考スコア（独自算出の注目度）: 12.628196757545979
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Masked language models (MLM) do not explicitly define a distribution over language, i.e., they are not language models per se. However, recent work has implicitly treated them as such for the purposes of generation and scoring. This paper studies methods for deriving explicit joint distributions from MLMs, focusing on distributions over two tokens, which makes it possible to calculate exact distributional properties. We find that an approach based on identifying joints whose conditionals are closest to those of the MLM works well and outperforms existing Markov random field-based approaches. We further find that this derived model's conditionals can even occasionally outperform the original MLM's conditionals.
Abstract（参考訳）: Masked Language Model (MLM) は、言語上の分布を明確に定義していない。しかし、近年の研究では、生成や採点のために暗黙的に彼らを扱っている。本稿では,mlmsから明示的なジョイント分布を導出する手法について検討し,二つのトークン上の分布に着目した。条件が MLM に最も近い関節を同定する手法がうまく機能し,既存のマルコフ確率場に基づく手法よりも優れていることがわかった。さらに、この導出モデルの条件は、元のMLMの条件よりも時折優れていることが分かる。

関連論文リスト

Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。 PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文参考訳（メタデータ） (2025-01-07T17:00:49Z)
DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。 DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文参考訳（メタデータ） (2024-06-07T19:38:05Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Which Syntactic Capabilities Are Statistically Learned by Masked Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文参考訳（メタデータ） (2024-01-03T02:44:02Z)
FiLM: Fill-in Language Models for Any-Order Generation [71.42044325886194]
Fill-in Language Model (FiLM) は、特定の生成順序に固執することなく任意の位置で柔軟な生成を可能にする新しい言語モデリング手法である。推論中、FiLMは欠落したフレーズ、文、段落をシームレスに挿入できる。 FiLMは、再構成されたテキストセグメントでトレーニングされた左から右への言語モデルに依存する既存のインフィル手法よりも優れています。
論文参考訳（メタデータ） (2023-10-15T19:37:39Z)
Inconsistencies in Masked Language Models [20.320583166619528]
Masked Language Model (MLM) は、マスキングされた位置におけるトークンの分布をシーケンスで提供することができる。異なるマスキングパターンに対応する分布は、かなりの矛盾を示す可能性がある。本稿では,条件文の集合(Ensemble of Conditionals)と呼ばれる fors の推論時間戦略を提案する。
論文参考訳（メタデータ） (2022-12-30T22:53:25Z)
Exposing the Implicit Energy Networks behind Masked Language Models via Metropolis--Hastings [57.133639209759615]
我々は,エネルギーに基づくシーケンスモデルとしてシーケンスを解釈し,訓練者から導出される2つのエネルギーパラメトリゼーションを提案する。我々はメトロポリス・ハスティングス・モンテカルロのアルゴリズムに基づく抽出可能なエンフスキームを開発した。提案手法の有効性を,これらのエネルギーモデルから得られた試料の品質を探索することによって検証する。
論文参考訳（メタデータ） (2021-06-04T22:04:30Z)
Universal Sentence Representation Learning with Conditional Masked Language Model [7.334766841801749]
文表現を効果的に学習するための条件付きマスク言語モデリング(M)を提案する。我々の英語CMLMモデルは,SentEvalの最先端性能を実現する。完全に教師なしの学習方法として、CMLMは幅広い言語やドメインに便利に拡張できます。
論文参考訳（メタデータ） (2020-12-28T18:06:37Z)
Encoder-Decoder Models Can Benefit from Pre-trained Masked Language Models in Grammatical Error Correction [54.569707226277735]
従来の方法はEncDecモデルに適用した場合に潜在的な欠点がある。提案手法では, コーパスを微調整し, GECモデルに付加的な特徴として出力を微調整する。 BEA 2019とCoNLL-2014ベンチマークにおける最高のパフォーマンスモデルのパフォーマンス。
論文参考訳（メタデータ） (2020-05-03T04:49:31Z)
Probabilistically Masked Language Model Capable of Autoregressive Generation in Arbitrary Word Order [32.71489048856101]
マスケード言語モデルと自己回帰言語モデルは2種類の言語モデルである。本稿では,確率的マスキングモデル (PMLM) と呼ばれるマスキング言語モデルに対する確率論的マスキング手法を提案する。我々は, u-PMLM が自己回帰型置換言語モデルと等価であることを証明した。
論文参考訳（メタデータ） (2020-04-24T07:38:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。