論文の概要: Failure to Mix: Large language models struggle to answer according to desired probability distributions
- arxiv url: http://arxiv.org/abs/2511.14630v1
- Date: Tue, 18 Nov 2025 16:22:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.207393
- Title: Failure to Mix: Large language models struggle to answer according to desired probability distributions
- Title(参考訳): 混合失敗:大規模言語モデルは、望ましい確率分布に応じて答えるのに苦労する
- Authors: Ivy Yuqian Yang, David Yu Zhang,
- Abstract要約: 現在のAIベンチマークは客観的に答えを正し、これらのベンチマークに対する強化学習を通じて大きな言語モデル(LLM)をトレーニングすることで、確率的探索を妨げている。
そこで本研究では,LLMが単純な確率分布に従って出力を出力するように要求する系統的な実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific idea generation and selection requires exploration following a target probability distribution. In contrast, current AI benchmarks have objectively correct answers, and training large language models (LLMs) via reinforcement learning against these benchmarks discourages probabilistic exploration. Here, we conducted systematic experiments requesting LLMs to produce outputs following simple probabilistic distributions, and found that all modern LLMs tested grossly fail to follow the distributions. For example, requesting a binary output of "1" 49% of the time produces an answer of "0" nearly 100% of the time. This step function-like behavior of near-exclusively generating the output with marginally highest probability even overrules even strong in-built LLM biases.
- Abstract(参考訳): 科学的アイデアの生成と選択は、ターゲットの確率分布に続く探索を必要とする。
対照的に、現在のAIベンチマークは客観的に正解であり、これらのベンチマークに対する強化学習を通じて大きな言語モデル(LLM)をトレーニングすることで、確率的探索を妨げている。
そこで本研究では,LLMが単純な確率分布に従って出力を出力するように要求する系統的な実験を行った。
例えば、"1" の 2 つの出力を 49% の時間で要求すると、"0" の答えが 100% に近い。
このステップ関数のような振る舞いは、極端に高い確率で出力をほぼ排他的に生成する。
関連論文リスト
- Large Language Models Are Bad Dice Players: LLMs Struggle to Generate Random Numbers from Statistical Distributions [50.1404916337174]
大規模言語モデル(LLM)における母国語の確率的サンプリングの大規模,統計的に活用された最初の監査について述べる。
バッチ生成は, ほぼ完全に崩壊する一方, 中央値のパスレートが13%であり, 統計的妥当性はわずかであることがわかった。
現在のLCMには機能的な内部サンプルが欠如しており、統計的保証を必要とするアプリケーションに外部ツールを使う必要があると結論付けている。
論文 参考訳(メタデータ) (2026-01-08T22:33:12Z) - Flipping Against All Odds: Reducing LLM Coin Flip Bias via Verbalized Rejection Sampling [59.133428586090226]
大規模言語モデル(LLM)は、しばしば自然言語を用いて確率分布を正確に記述することができる。
このミスマッチはモンテカルロ法、エージェントベースのシミュレーション、ランダム化された意思決定などの信頼性を必要とするタスクでの使用を制限する。
本稿では,古典的リジェクションサンプリングの自然言語適応であるVerbalized Rejection Smpling (VRS)を紹介する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - Distribution Prompting: Understanding the Expressivity of Language Models Through the Next-Token Distributions They Can Produce [16.149411731945968]
いくつかの分布は、他の分布よりもはるかに困難であることを示す。
非常に低いエントロピーあるいは非常に高いエントロピーの分布は、中間エントロピーの分布よりも近似が容易である。
論文 参考訳(メタデータ) (2025-05-18T05:49:48Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration [39.35476224845088]
大規模言語モデル(LLM)は様々なタスクにおいて補完的な強みを示し、LLMアンサンブルの研究を動機付けている。
本稿では,各復号ステップで異なるLLMから得られる情報的確率分布を融合した学習自由アンサンブルフレームワークDeePEnを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:52:22Z) - Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation [73.58618024960968]
人間のシーケンシャルな意思決定過程をエミュレートするエージェントとして、大きな言語モデル(LLM)を採用する研究が増えている。
このことは、確率分布を理解するためにLLMエージェントの容量に関する好奇心を喚起する。
分析の結果, LLM エージェントは確率を理解できるが, 確率サンプリングに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-04-13T16:59:28Z) - Embers of Autoregression: Understanding Large Language Models Through
the Problem They are Trained to Solve [21.55766758950951]
我々は、単語予測タスクを解決するために、大規模言語モデルが採用する戦略について予測する。
11 つのタスクで 2 つの LLM を評価し,LLM が確率の影響を受けていることを示す。
我々は、LSMをまるで人間であるかのように評価するのではなく、異なるタイプのシステムとして扱うべきだと結論付けている。
論文 参考訳(メタデータ) (2023-09-24T13:35:28Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。