論文の概要: Large Language Models Are Bad Dice Players: LLMs Struggle to Generate Random Numbers from Statistical Distributions
- arxiv url: http://arxiv.org/abs/2601.05414v1
- Date: Thu, 08 Jan 2026 22:33:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.786902
- Title: Large Language Models Are Bad Dice Players: LLMs Struggle to Generate Random Numbers from Statistical Distributions
- Title(参考訳): 大規模言語モデルは悪いプレイヤーである:統計的分布から乱数を生成するLLM
- Authors: Minda Zhao, Yilun Du, Mengyu Wang,
- Abstract要約: 大規模言語モデル(LLM)における母国語の確率的サンプリングの大規模,統計的に活用された最初の監査について述べる。
バッチ生成は, ほぼ完全に崩壊する一方, 中央値のパスレートが13%であり, 統計的妥当性はわずかであることがわかった。
現在のLCMには機能的な内部サンプルが欠如しており、統計的保証を必要とするアプリケーションに外部ツールを使う必要があると結論付けている。
- 参考スコア(独自算出の注目度): 50.1404916337174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) transition from chat interfaces to integral components of stochastic pipelines across domains like educational assessment and synthetic data construction, the ability to faithfully sample from specified probability distributions has become a functional requirement rather than a theoretical curiosity. We present the first large-scale, statistically powered audit of native probabilistic sampling in frontier LLMs, benchmarking 11 models across 15 distributions. To disentangle failure modes, we employ a dual-protocol design: Batch Generation, where a model produces N=1000 samples within one response, and Independent Requests, comprising $N=1000$ stateless calls. We observe a sharp protocol asymmetry: batch generation achieves only modest statistical validity, with a 13% median pass rate, while independent requests collapse almost entirely, with 10 of 11 models passing none of the distributions. Beyond this asymmetry, we reveal that sampling fidelity degrades monotonically with distributional complexity and aggravates as the requested sampling horizon N increases. Finally, we demonstrate the propagation of these failures into downstream tasks: models fail to enforce uniform answer-position constraints in MCQ generation and systematically violate demographic targets in attribute-constrained text-to-image prompt synthesis. These findings indicate that current LLMs lack a functional internal sampler, necessitating the use of external tools for applications requiring statistical guarantees.
- Abstract(参考訳): 大規模言語モデル(LLM)がチャットインタフェースから、教育評価や合成データ構築といった領域にまたがる確率パイプラインの積分成分へと移行するにつれ、特定の確率分布から忠実にサンプリングする能力は、理論的な好奇心よりも機能的な要件となっている。
我々は,15の分布にまたがる11のモデルをベンチマークし,フロンティアLSMにおける確率的サンプリングの大規模,統計的に活用した最初の監査結果を示す。
モデルが1つの応答内でN=1000サンプルを生成するバッチ生成と,N=1000$のステートレスコールを含む独立リクエストという,デュアルプロトコル設計を採用する。
バッチ生成は、中央値のパスレートが13%、独立要求がほぼ完全に崩壊し、11モデルのうち10モデルがどの分布も通過しない。
この非対称性を超えて、サンプリング忠実度は分布の複雑さとともに単調に低下し、要求されたサンプリング水平線Nが増加するにつれて増大する。
最後に、これらの故障の下流タスクへの伝播を実証する:モデルがMCQ生成において一様応答配置制約を強制せず、属性制約付きテキスト-画像の即時合成において、階層的ターゲットを体系的に違反する。
これらの結果から,現在のLCMには機能的な内部サンプルが欠如しており,統計的保証を必要とするアプリケーションに外部ツールを使用する必要があることが示唆された。
関連論文リスト
- Optimal Inference Schedules for Masked Diffusion Models [16.774584258255768]
マスク付き拡散モデル(MDM)は、順番に多くのトークンを同時に同時にサンプリングすることができる。
分布の事前知識が強くなければ、一般にそれと競合することは不可能であることを示す。
論文 参考訳(メタデータ) (2025-11-06T18:38:24Z) - Flipping Against All Odds: Reducing LLM Coin Flip Bias via Verbalized Rejection Sampling [59.133428586090226]
大規模言語モデル(LLM)は、しばしば自然言語を用いて確率分布を正確に記述することができる。
このミスマッチはモンテカルロ法、エージェントベースのシミュレーション、ランダム化された意思決定などの信頼性を必要とするタスクでの使用を制限する。
本稿では,古典的リジェクションサンプリングの自然言語適応であるVerbalized Rejection Smpling (VRS)を紹介する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - Constrained Sampling for Language Models Should Be Easy: An MCMC Perspective [31.37618506317961]
制約付き復号化により、言語モデルは、確実に厳しい制約を満たすサンプルを作成することができる。
既存の制約付きデコードアプローチは、基礎となるモデル分布を歪ませる。
我々はマルコフ・チェイン・モンテカルロに基づく新しい制約付きサンプリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-06T05:28:20Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Controllable Generation via Locally Constrained Resampling [77.48624621592523]
本研究では, ベイズ条件付けを行い, 制約条件下でサンプルを描画する, トラクタブルな確率的手法を提案する。
提案手法はシーケンス全体を考慮し,現行のグリード法よりも大域的に最適に制約された生成を導出する。
提案手法は, 有害な世代からモデル出力を分離し, 脱毒化に対する同様のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T00:49:53Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Sampling from Discrete Energy-Based Models with Quality/Efficiency
Trade-offs [3.491202838583993]
エネルギーベースモデル(EBM)は、確率分布の非常に柔軟な仕様を可能にする。
これらの分布から正確なサンプルを得るためのメカニズムは提供されていない。
そこで本研究では,サンプリング効率とサンプリング品質のトレードオフを可能にする,新しい近似サンプリング手法であるQuasi Rejection Smpling (QRS)を提案する。
論文 参考訳(メタデータ) (2021-12-10T17:51:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。