論文の概要: Towards Probabilistically-Sound Beam Search with Masked Language Models
- arxiv url: http://arxiv.org/abs/2402.15020v3
- Date: Thu, 10 Oct 2024 06:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:29:24.484697
- Title: Towards Probabilistically-Sound Beam Search with Masked Language Models
- Title(参考訳): マスク言語モデルを用いた確率的音波ビーム探索に向けて
- Authors: Creston Brooks, Robert Calef, Charlie Cowen-Breen, Anna Sappington,
- Abstract要約: ビームサーチマスキング言語モデル(MLM)は,分布上の結合確率が得られないため,部分的には困難である。
このような分布を推定することは、古代のテキスト復元やタンパク質工学といったドメイン固有の重要な応用がある。
ここでは,系列を用いたビームサーチの確率論的手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Beam search with masked language models (MLMs) is challenging in part because joint probability distributions over sequences are not readily available, unlike for autoregressive models. However, estimating such distributions has important domain-specific applications such as ancient text restoration and protein engineering. Here we present probabilistically-sound methods for beam search with MLMs. First, we clarify the conditions under which it is theoretically sound to perform text infilling with MLMs using standard beam search. When these conditions fail, we provide a probabilistically-sound inference time modification with no additional computational complexity and demonstrate that it is superior to the aforementioned beam search in the expected conditions. We then present empirical results comparing several infilling approaches with MLMs across several domains. Notably, our method probes the inductive biases of MLMs and explores the surprising contextual sensitivity of mask tokens for text infilling.
- Abstract(参考訳): マスク付き言語モデル(MLM)を用いたビームサーチは、自己回帰モデルとは異なり、シーケンス上の結合確率分布が容易には利用できないため、部分的には困難である。
しかし、そのような分布を推定することは、古代のテキスト復元やタンパク質工学など、ドメイン固有の重要な応用がある。
本稿では,MLMを用いたビームサーチの確率論的手法を提案する。
まず、標準ビームサーチを用いて、MLMでテキストを埋め込む理論的に健全な条件を明らかにする。
これらの条件が失敗した場合、さらなる計算複雑性を伴わない確率論的推論時間修正を行い、上記の予測条件におけるビーム探索よりも優れていることを示す。
次に、複数の領域にまたがるMLMを用いて、複数の埋め込みアプローチを比較した経験的結果を示す。
特に,本手法では,MLMの帰納バイアスを探索し,テキスト入力のためのマスクトークンの驚くほどの文脈感度を探索する。
関連論文リスト
- Training-free LLM-generated Text Detection by Mining Token Probability Sequences [18.955509967889782]
大規模言語モデル(LLM)は、様々な領域にまたがる高品質なテキストを生成する際、顕著な能力を示した。
統計的特徴を慎重に設計することで、固有の相違に焦点をあてたトレーニングフリーな手法は、一般化と解釈性の向上を提供する。
局所的および大域的統計を相乗化して検出を増強する,新しいトレーニング不要検出器である textbfLastde を導入する。
論文 参考訳(メタデータ) (2024-10-08T14:23:45Z) - Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation [73.58618024960968]
人間のシーケンシャルな意思決定過程をエミュレートするエージェントとして、大きな言語モデル(LLM)を採用する研究が増えている。
このことは、確率分布を理解するためにLLMエージェントの容量に関する好奇心を喚起する。
分析の結果, LLM エージェントは確率を理解できるが, 確率サンプリングに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-04-13T16:59:28Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Efficient Detection of LLM-generated Texts with a Bayesian Surrogate Model [14.98695074168234]
本稿では,特に大規模言語モデル(LLM)から機械生成テキストを検出する新しい手法を提案する。
ベイジアンサロゲートモデルを用いて、ベイジアン不確実性に基づいて典型的なサンプルを選択し、典型的なサンプルから他のサンプルへのスコアを補間し、クエリ効率を向上させる。
実験の結果,提案手法はクエリコストの低い既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-05-26T04:23:10Z) - Deriving Language Models from Masked Language Models [12.628196757545979]
Masked Language Model (MLM) は言語上の分布を明確に定義していない。
最近の研究は、それらを生成と得点の目的で暗黙的に扱っている。
論文 参考訳(メタデータ) (2023-05-24T18:42:45Z) - Inconsistencies in Masked Language Models [20.320583166619528]
Masked Language Model (MLM) は、マスキングされた位置におけるトークンの分布をシーケンスで提供することができる。
異なるマスキングパターンに対応する分布は、かなりの矛盾を示す可能性がある。
本稿では,条件文の集合(Ensemble of Conditionals)と呼ばれる fors の推論時間戦略を提案する。
論文 参考訳(メタデータ) (2022-12-30T22:53:25Z) - Arithmetic Sampling: Parallel Diverse Decoding for Large Language Models [65.52639709094963]
ビームサーチやガンベルトップkサンプリングのような手法は、ビームの各要素に対して異なる出力を保証できるが、並列化は容易ではない。
本稿では,大言語モデルによって暗黙的に定義された算術符号書に従ってサンプリングを行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T22:19:41Z) - Exposing the Implicit Energy Networks behind Masked Language Models via
Metropolis--Hastings [57.133639209759615]
我々は,エネルギーに基づくシーケンスモデルとしてシーケンスを解釈し,訓練者から導出される2つのエネルギーパラメトリゼーションを提案する。
我々はメトロポリス・ハスティングス・モンテカルロのアルゴリズムに基づく抽出可能なエンフスキームを開発した。
提案手法の有効性を,これらのエネルギーモデルから得られた試料の品質を探索することによって検証する。
論文 参考訳(メタデータ) (2021-06-04T22:04:30Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。