Fugu-MT 論文翻訳(概要): Towards Probabilistically-Sound Beam Search with Masked Language Models

論文の概要: Towards Probabilistically-Sound Beam Search with Masked Language Models

arxiv url: http://arxiv.org/abs/2402.15020v3
Date: Thu, 10 Oct 2024 06:34:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 03:22:48.017146
Title: Towards Probabilistically-Sound Beam Search with Masked Language Models
Title（参考訳）: マスク言語モデルを用いた確率的音波ビーム探索に向けて
Authors: Creston Brooks, Robert Calef, Charlie Cowen-Breen, Anna Sappington,
Abstract要約: ビームサーチマスキング言語モデル(MLM)は,分布上の結合確率が得られないため,部分的には困難である。このような分布を推定することは、古代のテキスト復元やタンパク質工学といったドメイン固有の重要な応用がある。ここでは,系列を用いたビームサーチの確率論的手法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Beam search with masked language models (MLMs) is challenging in part because joint probability distributions over sequences are not readily available, unlike for autoregressive models. However, estimating such distributions has important domain-specific applications such as ancient text restoration and protein engineering. Here we present probabilistically-sound methods for beam search with MLMs. First, we clarify the conditions under which it is theoretically sound to perform text infilling with MLMs using standard beam search. When these conditions fail, we provide a probabilistically-sound inference time modification with no additional computational complexity and demonstrate that it is superior to the aforementioned beam search in the expected conditions. We then present empirical results comparing several infilling approaches with MLMs across several domains. Notably, our method probes the inductive biases of MLMs and explores the surprising contextual sensitivity of mask tokens for text infilling.
Abstract（参考訳）: マスク付き言語モデル(MLM)を用いたビームサーチは、自己回帰モデルとは異なり、シーケンス上の結合確率分布が容易には利用できないため、部分的には困難である。しかし、そのような分布を推定することは、古代のテキスト復元やタンパク質工学など、ドメイン固有の重要な応用がある。本稿では,MLMを用いたビームサーチの確率論的手法を提案する。まず、標準ビームサーチを用いて、MLMでテキストを埋め込む理論的に健全な条件を明らかにする。これらの条件が失敗した場合、さらなる計算複雑性を伴わない確率論的推論時間修正を行い、上記の予測条件におけるビーム探索よりも優れていることを示す。次に、複数の領域にまたがるMLMを用いて、複数の埋め込みアプローチを比較した経験的結果を示す。特に,本手法では,MLMの帰納バイアスを探索し,テキスト入力のためのマスクトークンの驚くほどの文脈感度を探索する。

関連論文リスト

Textual Bayes: Quantifying Uncertainty in LLM-Based Systems [16.449972045324916]
大規模言語モデル(LLM)は、現実世界の課題を解決する能力がますます高まっている。不確実性を正確に定量化することは重要な問題ですこの課題は、多くの最先端のLCMのクローズドソース、ブラックボックスの性質によって複雑化されている。
論文参考訳（メタデータ） (2025-06-11T18:00:00Z)
Flipping Against All Odds: Reducing LLM Coin Flip Bias via Verbalized Rejection Sampling [59.133428586090226]
大規模言語モデル(LLM)は、しばしば自然言語を用いて確率分布を正確に記述することができる。このミスマッチはモンテカルロ法、エージェントベースのシミュレーション、ランダム化された意思決定などの信頼性を必要とするタスクでの使用を制限する。本稿では,古典的リジェクションサンプリングの自然言語適応であるVerbalized Rejection Smpling (VRS)を紹介する。
論文参考訳（メタデータ） (2025-06-11T17:59:58Z)
Context-Aware Probabilistic Modeling with LLM for Multimodal Time Series Forecasting [24.56167831047955]
本稿では,文脈を考慮した確率的マルチモーダル時系列予測手法であるCAPTimeを提案する。提案手法はまず,事前学習した時系列エンコーダを用いて時間パターンを符号化し,学習可能なインタラクションを通じてテキストコンテキストと整列する。多様な時系列予測タスクの実験では、CAPTimeの精度と一般化が優れている。
論文参考訳（メタデータ） (2025-05-16T01:23:53Z)
Uncertainty-Aware Hybrid Inference with On-Device Small and Remote Large Language Models [49.48313161005423]
ハイブリッド言語モデル(HLM)アーキテクチャは、モバイル端末で動作する小さな言語モデル(SLM)と、無線ネットワークの基地局(BS)にホストされる大きな言語モデル(LLM)を統合する。 HLMトークン生成プロセスは、投機的推論の原則に従っている: SLMの語彙分布はLSMにアップロードされ、LPMによって再サンプリングされる。本研究では,不確実性を考慮したHLM (Uncertainty-aware opportunistic HLM) という新しいHLM構造を提案する。
論文参考訳（メタデータ） (2024-12-17T09:08:18Z)
Forking Paths in Neural Text Generation [14.75166317633176]
テキスト生成の個々のトークンにまたがる不確実性のダイナミクスを表現するための新しいアプローチを開発する。 4つの領域にわたる7つのタスクにおけるLLM応答の解析に本手法を用いる。句読点などの驚くべきものを含む、トークンをフォークする多くの例を見出す。
論文参考訳（メタデータ） (2024-12-10T22:57:57Z)
Measuring memorization in language models via probabilistic extraction [29.438509661725117]
大規模言語モデル(LLM)は、トレーニングデータを記憶する可能性がある。発見可能な抽出は、この問題を測定する最も一般的な方法である。確率的探索可能な抽出を導入し、追加コストなしで複数のクエリを考慮し、発見可能な抽出を緩和する。
論文参考訳（メタデータ） (2024-10-25T11:37:04Z)
Training-free LLM-generated Text Detection by Mining Token Probability Sequences [18.955509967889782]
大規模言語モデル(LLM)は、様々な領域にまたがる高品質なテキストを生成する際、顕著な能力を示した。統計的特徴を慎重に設計することで、固有の相違に焦点をあてたトレーニングフリーな手法は、一般化と解釈性の向上を提供する。局所的および大域的統計を相乗化して検出を増強する,新しいトレーニング不要検出器である textbfLastde を導入する。
論文参考訳（メタデータ） (2024-10-08T14:23:45Z)
Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation [73.58618024960968]
人間のシーケンシャルな意思決定過程をエミュレートするエージェントとして、大きな言語モデル(LLM)を採用する研究が増えている。このことは、確率分布を理解するためにLLMエージェントの容量に関する好奇心を喚起する。分析の結果, LLM エージェントは確率を理解できるが, 確率サンプリングに苦慮していることがわかった。
論文参考訳（メタデータ） (2024-04-13T16:59:28Z)
Which Syntactic Capabilities Are Statistically Learned by Masked Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文参考訳（メタデータ） (2024-01-03T02:44:02Z)
Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-20T03:17:21Z)
Efficient Detection of LLM-generated Texts with a Bayesian Surrogate Model [14.98695074168234]
本稿では,特に大規模言語モデル(LLM)から機械生成テキストを検出する新しい手法を提案する。ベイジアンサロゲートモデルを用いて、ベイジアン不確実性に基づいて典型的なサンプルを選択し、典型的なサンプルから他のサンプルへのスコアを補間し、クエリ効率を向上させる。実験の結果,提案手法はクエリコストの低い既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2023-05-26T04:23:10Z)
Deriving Language Models from Masked Language Models [12.628196757545979]
Masked Language Model (MLM) は言語上の分布を明確に定義していない。最近の研究は、それらを生成と得点の目的で暗黙的に扱っている。
論文参考訳（メタデータ） (2023-05-24T18:42:45Z)
Inconsistencies in Masked Language Models [20.320583166619528]
Masked Language Model (MLM) は、マスキングされた位置におけるトークンの分布をシーケンスで提供することができる。異なるマスキングパターンに対応する分布は、かなりの矛盾を示す可能性がある。本稿では,条件文の集合(Ensemble of Conditionals)と呼ばれる fors の推論時間戦略を提案する。
論文参考訳（メタデータ） (2022-12-30T22:53:25Z)
Arithmetic Sampling: Parallel Diverse Decoding for Large Language Models [65.52639709094963]
ビームサーチやガンベルトップkサンプリングのような手法は、ビームの各要素に対して異なる出力を保証できるが、並列化は容易ではない。本稿では,大言語モデルによって暗黙的に定義された算術符号書に従ってサンプリングを行うフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-18T22:19:41Z)
Exposing the Implicit Energy Networks behind Masked Language Models via Metropolis--Hastings [57.133639209759615]
我々は,エネルギーに基づくシーケンスモデルとしてシーケンスを解釈し,訓練者から導出される2つのエネルギーパラメトリゼーションを提案する。我々はメトロポリス・ハスティングス・モンテカルロのアルゴリズムに基づく抽出可能なエンフスキームを開発した。提案手法の有効性を,これらのエネルギーモデルから得られた試料の品質を探索することによって検証する。
論文参考訳（メタデータ） (2021-06-04T22:04:30Z)
Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文参考訳（メタデータ） (2021-04-14T06:30:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。