論文の概要: Exposing the Implicit Energy Networks behind Masked Language Models via
Metropolis--Hastings
- arxiv url: http://arxiv.org/abs/2106.02736v1
- Date: Fri, 4 Jun 2021 22:04:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:41:56.483375
- Title: Exposing the Implicit Energy Networks behind Masked Language Models via
Metropolis--Hastings
- Title(参考訳): マスキング言語モデルの背後にある暗黙のエネルギーネットワークをメトロポリスで公開する--hastings
- Authors: Kartik Goyal, Chris Dyer, Taylor Berg-Kirkpatrick
- Abstract要約: 我々は,エネルギーに基づくシーケンスモデルとしてシーケンスを解釈し,訓練者から導出される2つのエネルギーパラメトリゼーションを提案する。
我々はメトロポリス・ハスティングス・モンテカルロのアルゴリズムに基づく抽出可能なエンフスキームを開発した。
提案手法の有効性を,これらのエネルギーモデルから得られた試料の品質を探索することによって検証する。
- 参考スコア(独自算出の注目度): 57.133639209759615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent work has shown that scores from models trained by the ubiquitous
masked language modeling (MLM) objective effectively discriminate probable and
improbable sequences, it is still an open question if these MLMs specify a
principled probability distribution over the space of possible sequences. In
this paper, we interpret MLMs as energy-based sequence models and propose two
energy parametrizations derivable from the trained MLMs. In order to draw
samples correctly from these models, we develop a tractable \emph{sampling}
scheme based on the Metropolis--Hastings Monte Carlo algorithm. In our
approach, samples are proposed from the same masked conditionals used for
training the masked language models, and they are accepted or rejected based on
their energy values according to the target distribution. We validate the
effectiveness of the proposed parametrizations by exploring the quality of
samples drawn from these energy-based models on the conditional generation task
of machine translation. We theoretically and empirically justify our sampling
algorithm by showing that the masked conditionals on their own do not yield a
Markov chain whose stationary distribution is that of our target distribution,
and our approach generates higher quality samples than other recently proposed
undirected generation approaches (Wang et al., 2019, Ghazvininejad et al.,
2019).
- Abstract(参考訳): 近年の研究では、ユビキタスマスマスキング言語モデリング(MLM)によって訓練されたモデルのスコアが、確率的および不測のシーケンスを効果的に識別できることが示されているが、これらのMLMが可能なシーケンスの空間上の原理的確率分布を規定しているかどうかはまだ明らかではない。
本稿では、MLMをエネルギーベースシーケンスモデルとして解釈し、訓練されたMLMから導出される2つのエネルギーパラメトリゼーションを提案する。
これらのモデルからサンプルを正しく抽出するために、メトロポリス・ハスティングス・モンテカルロアルゴリズムに基づく移動可能な \emph{sampling} スキームを開発した。
提案手法では,マスク付き言語モデルのトレーニングに使用した同じマスク付き条件からサンプルを抽出し,対象の分布に応じて,そのエネルギー値に基づいて受け入れ,拒否する。
機械翻訳の条件付き生成タスクにおいて,これらのエネルギーモデルから得られたサンプルの品質を探索し,提案手法の有効性を検証する。
我々は, マスキング条件式が対象分布の定常分布であるマルコフ連鎖を生じないことを示すことによって, サンプリングアルゴリズムを理論的に実証的に正当化し, 提案手法が提案されている他の非指向型生成手法(wang et al., 2019, ghazvininejad et al., 2019)よりも高品質なサンプルを生成する。
関連論文リスト
- Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Towards Probabilistically-Sound Beam Search with Masked Language Models [0.0]
ビームサーチマスキング言語モデル(MLM)は,分布上の結合確率が得られないため,部分的には困難である。
このような分布を推定することは、古代のテキスト復元やタンパク質工学といったドメイン固有の重要な応用がある。
ここでは,系列を用いたビームサーチの確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-02-22T23:36:26Z) - A Block Metropolis-Hastings Sampler for Controllable Energy-based Text
Generation [78.81021361497311]
我々は,大規模言語モデルの反復的プロンプトを通じて,各ステップにおけるシーケンス全体の書き直しを提案する新しいメトロポリス・ハスティングス(MH)サンプリング器を開発した。
対象分布からより効率的かつ正確なサンプリングが可能となり, (b) 事前に固定するのではなく, サンプリング手順により生成長を決定することが可能となった。
論文 参考訳(メタデータ) (2023-12-07T18:30:15Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Differentiating Metropolis-Hastings to Optimize Intractable Densities [51.16801956665228]
我々はメトロポリス・ハスティングス検層の自動識別アルゴリズムを開発した。
難解な対象密度に対する期待値として表現された目的に対して勾配に基づく最適化を適用する。
論文 参考訳(メタデータ) (2023-06-13T17:56:02Z) - Deriving Language Models from Masked Language Models [12.628196757545979]
Masked Language Model (MLM) は言語上の分布を明確に定義していない。
最近の研究は、それらを生成と得点の目的で暗黙的に扱っている。
論文 参考訳(メタデータ) (2023-05-24T18:42:45Z) - Inconsistencies in Masked Language Models [20.320583166619528]
Masked Language Model (MLM) は、マスキングされた位置におけるトークンの分布をシーケンスで提供することができる。
異なるマスキングパターンに対応する分布は、かなりの矛盾を示す可能性がある。
本稿では,条件文の集合(Ensemble of Conditionals)と呼ばれる fors の推論時間戦略を提案する。
論文 参考訳(メタデータ) (2022-12-30T22:53:25Z) - Sampling from Discrete Energy-Based Models with Quality/Efficiency
Trade-offs [3.491202838583993]
エネルギーベースモデル(EBM)は、確率分布の非常に柔軟な仕様を可能にする。
これらの分布から正確なサンプルを得るためのメカニズムは提供されていない。
そこで本研究では,サンプリング効率とサンプリング品質のトレードオフを可能にする,新しい近似サンプリング手法であるQuasi Rejection Smpling (QRS)を提案する。
論文 参考訳(メタデータ) (2021-12-10T17:51:37Z) - Oops I Took A Gradient: Scalable Sampling for Discrete Distributions [53.3142984019796]
このアプローチは、多くの困難な設定において、ジェネリックサンプリングよりも優れていることを示す。
また,高次元離散データを用いた深部エネルギーモデルトレーニングのための改良型サンプリング器についても実演した。
論文 参考訳(メタデータ) (2021-02-08T20:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。