論文の概要: Flipping Against All Odds: Reducing LLM Coin Flip Bias via Verbalized Rejection Sampling
- arxiv url: http://arxiv.org/abs/2506.09998v1
- Date: Wed, 11 Jun 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.200585
- Title: Flipping Against All Odds: Reducing LLM Coin Flip Bias via Verbalized Rejection Sampling
- Title(参考訳): オールオッドに対するフリップ: バーバル化リジェクションサンプリングによるLCMコイルフリップバイアスの低減
- Authors: Tim Z. Xiao, Johannes Zenn, Zhen Liu, Weiyang Liu, Robert Bamler, Bernhard Schölkopf,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば自然言語を用いて確率分布を正確に記述することができる。
このミスマッチはモンテカルロ法、エージェントベースのシミュレーション、ランダム化された意思決定などの信頼性を必要とするタスクでの使用を制限する。
本稿では,古典的リジェクションサンプリングの自然言語適応であるVerbalized Rejection Smpling (VRS)を紹介する。
- 参考スコア(独自算出の注目度): 59.133428586090226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can often accurately describe probability distributions using natural language, yet they still struggle to generate faithful samples from them. This mismatch limits their use in tasks requiring reliable stochasticity, such as Monte Carlo methods, agent-based simulations, and randomized decision-making. We investigate this gap between knowledge and sampling in the context of Bernoulli distributions. We introduce Verbalized Rejection Sampling (VRS), a natural-language adaptation of classical rejection sampling that prompts the LLM to reason about and accept or reject proposed samples. Despite relying on the same Bernoulli mechanism internally, VRS substantially reduces sampling bias across models. We provide theoretical analysis showing that, under mild assumptions, VRS improves over direct sampling, with gains attributable to both the algorithm and prompt design. More broadly, our results show how classical probabilistic tools can be verbalized and embedded into LLM workflows to improve reliability, without requiring access to model internals or heavy prompt engineering.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば自然言語を用いて確率分布を正確に記述することができるが、それらから忠実なサンプルを生成するのに苦慮している。
このミスマッチはモンテカルロ法、エージェントベースのシミュレーション、ランダム化決定など、信頼性の高い確率性を必要とするタスクでの使用を制限する。
ベルヌーイ分布の文脈における知識とサンプリングのギャップについて検討する。
本稿では,従来のリジェクションサンプリングの自然言語適応であるVerbalized Rejection Smpling(VRS)を紹介する。
内部で同じBernoulli機構に依存しているにも関わらず、VRSはモデル間のサンプリングバイアスを大幅に削減する。
理論解析により,VRSは直接サンプリングよりも改善され,アルゴリズムとプロンプト設計の両方に起因するゲインが得られることを示した。
より広範に、従来の確率的ツールを言語化してLLMワークフローに組み込んで信頼性を向上させる方法を示し、モデル内部へのアクセスや重いプロンプトエンジニアリングは不要である。
関連論文リスト
- Statistical Hypothesis Testing for Auditing Robustness in Language Models [49.1574468325115]
本稿では,摂動解析を頻繁な仮説テスト問題として再検討するフレームワークである分布に基づく摂動解析を紹介する。
モンテカルロサンプリングを用いて低次元意味的類似性空間内に経験的ヌルおよび代替出力分布を構築する。
反応変化の定量化、正/偽の正率の測定、参照モデルとの整合性の評価について述べる。
論文 参考訳(メタデータ) (2025-06-09T17:11:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation [73.58618024960968]
人間のシーケンシャルな意思決定過程をエミュレートするエージェントとして、大きな言語モデル(LLM)を採用する研究が増えている。
このことは、確率分布を理解するためにLLMエージェントの容量に関する好奇心を喚起する。
分析の結果, LLM エージェントは確率を理解できるが, 確率サンプリングに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-04-13T16:59:28Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - Efficient Propagation of Uncertainty via Reordering Monte Carlo Samples [0.7087237546722617]
不確実性伝播は、入力変数の不確実性に基づいてモデル出力の不確実性を決定する技術である。
本研究は,全ての試料が平均的に有用であるにもかかわらず,他の試料よりも有用であるとする仮説を考察する。
本稿では、MCサンプルを適応的に並べ替える手法を導入し、UPプロセスの計算コストの削減をもたらす方法を示す。
論文 参考訳(メタデータ) (2023-02-09T21:28:15Z) - Sampling from Discrete Energy-Based Models with Quality/Efficiency
Trade-offs [3.491202838583993]
エネルギーベースモデル(EBM)は、確率分布の非常に柔軟な仕様を可能にする。
これらの分布から正確なサンプルを得るためのメカニズムは提供されていない。
そこで本研究では,サンプリング効率とサンプリング品質のトレードオフを可能にする,新しい近似サンプリング手法であるQuasi Rejection Smpling (QRS)を提案する。
論文 参考訳(メタデータ) (2021-12-10T17:51:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。