論文の概要: Probabilistically-sound beam search with masked language models
- arxiv url: http://arxiv.org/abs/2402.15020v1
- Date: Thu, 22 Feb 2024 23:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:10:37.634100
- Title: Probabilistically-sound beam search with masked language models
- Title(参考訳): マスク付き言語モデルを用いた確率音波探索
- Authors: Charlie Cowen-Breen, Creston Brooks, Robert Calef, Anna Sappington
- Abstract要約: ビームサーチマスキング言語モデル(MLM)は,分布上の結合確率が得られないため,部分的には困難である。
このような分布を推定することは、タンパク質工学や古代のテキスト復元など、多くの分野で応用されている。
本稿では,領域を用いたビームサーチの確率論的手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Beam search with masked language models (MLMs) is challenging in part because
joint probability distributions over sequences are not readily available,
unlike for autoregressive models. Nevertheless, estimating such distributions
has applications in many domains, including protein engineering and ancient
text restoration. We present probabilistically-sound methods for beam search
with MLMs. First, we clarify the conditions under which it is theoretically
sound to perform text infilling with MLMs using standard beam search. When
these conditions fail, we provide a probabilistically-sound modification with
no additional computational complexity and demonstrate that it is superior to
the aforementioned beam search in the expected conditions. We then present
empirical results comparing several infilling approaches with MLMs across
several domains.
- Abstract(参考訳): マスク付き言語モデル(MLM)を用いたビームサーチは、自己回帰モデルとは異なり、シーケンス上の結合確率分布が容易には利用できないため、部分的には困難である。
それにもかかわらず、そのような分布の推定は、タンパク質工学や古代のテキスト復元を含む多くの領域で応用されている。
MLMを用いたビームサーチの確率論的手法を提案する。
まず,標準ビーム探索を用いてmlmsでテキストインフィルングを行うのが理論的に妥当な条件を明らかにする。
これらの条件が失敗した場合、さらなる計算複雑性を伴わない確率的音響修正を行い、上記の予測条件におけるビーム探索よりも優れていることを示す。
次に,複数の領域にわたるmlmを用いたインフィルディングアプローチを比較した実験結果を示す。
関連論文リスト
- Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation [73.58618024960968]
本稿では,確率分布を理解するための大規模言語モデルの能力について検討する。
LLMエージェントは,プログラムツールを用いても確率分布をサンプリングすることはできない。
分析の結果,LLMエージェントはプログラムツールを用いても確率分布をサンプリングできないことがわかった。
論文 参考訳(メタデータ) (2024-04-13T16:59:28Z) - Conformal Language Modeling [63.69391255926407]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - Deriving Language Models from Masked Language Models [12.628196757545979]
Masked Language Model (MLM) は言語上の分布を明確に定義していない。
最近の研究は、それらを生成と得点の目的で暗黙的に扱っている。
論文 参考訳(メタデータ) (2023-05-24T18:42:45Z) - Learning Hidden Markov Models Using Conditional Samples [72.20944611510198]
本稿では,隠れマルコフモデル(HMM)の学習における計算複雑性について述べる。
本稿では,HMMの条件分布からサンプルを問合せする対話型アクセスモデルを提案する。
具体的には、正確な条件付き確率に対するクエリアクセスが可能な設定において、HMMを学習するための効率的なアルゴリズムを得る。
論文 参考訳(メタデータ) (2023-02-28T16:53:41Z) - Inconsistencies in Masked Language Models [20.320583166619528]
Masked Language Model (MLM) は、マスキングされた位置におけるトークンの分布をシーケンスで提供することができる。
異なるマスキングパターンに対応する分布は、かなりの矛盾を示す可能性がある。
本稿では,条件文の集合(Ensemble of Conditionals)と呼ばれる fors の推論時間戦略を提案する。
論文 参考訳(メタデータ) (2022-12-30T22:53:25Z) - Arithmetic Sampling: Parallel Diverse Decoding for Large Language Models [65.52639709094963]
ビームサーチやガンベルトップkサンプリングのような手法は、ビームの各要素に対して異なる出力を保証できるが、並列化は容易ではない。
本稿では,大言語モデルによって暗黙的に定義された算術符号書に従ってサンプリングを行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T22:19:41Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z) - Exposing the Implicit Energy Networks behind Masked Language Models via
Metropolis--Hastings [57.133639209759615]
我々は,エネルギーに基づくシーケンスモデルとしてシーケンスを解釈し,訓練者から導出される2つのエネルギーパラメトリゼーションを提案する。
我々はメトロポリス・ハスティングス・モンテカルロのアルゴリズムに基づく抽出可能なエンフスキームを開発した。
提案手法の有効性を,これらのエネルギーモデルから得られた試料の品質を探索することによって検証する。
論文 参考訳(メタデータ) (2021-06-04T22:04:30Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。