Fugu-MT 論文翻訳(概要): Failure to Mix: Large language models struggle to answer according to desired probability distributions

論文の概要: Failure to Mix: Large language models struggle to answer according to desired probability distributions

arxiv url: http://arxiv.org/abs/2511.14630v1
Date: Tue, 18 Nov 2025 16:22:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-19 16:23:53.207393
Title: Failure to Mix: Large language models struggle to answer according to desired probability distributions
Title（参考訳）: 混合失敗:大規模言語モデルは、望ましい確率分布に応じて答えるのに苦労する
Authors: Ivy Yuqian Yang, David Yu Zhang,
Abstract要約: 現在のAIベンチマークは客観的に答えを正し、これらのベンチマークに対する強化学習を通じて大きな言語モデル(LLM)をトレーニングすることで、確率的探索を妨げている。そこで本研究では,LLMが単純な確率分布に従って出力を出力するように要求する系統的な実験を行った。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scientific idea generation and selection requires exploration following a target probability distribution. In contrast, current AI benchmarks have objectively correct answers, and training large language models (LLMs) via reinforcement learning against these benchmarks discourages probabilistic exploration. Here, we conducted systematic experiments requesting LLMs to produce outputs following simple probabilistic distributions, and found that all modern LLMs tested grossly fail to follow the distributions. For example, requesting a binary output of "1" 49% of the time produces an answer of "0" nearly 100% of the time. This step function-like behavior of near-exclusively generating the output with marginally highest probability even overrules even strong in-built LLM biases.
Abstract（参考訳）: 科学的アイデアの生成と選択は、ターゲットの確率分布に続く探索を必要とする。対照的に、現在のAIベンチマークは客観的に正解であり、これらのベンチマークに対する強化学習を通じて大きな言語モデル(LLM)をトレーニングすることで、確率的探索を妨げている。そこで本研究では,LLMが単純な確率分布に従って出力を出力するように要求する系統的な実験を行った。例えば、"1" の 2 つの出力を 49% の時間で要求すると、"0" の答えが 100% に近い。このステップ関数のような振る舞いは、極端に高い確率で出力をほぼ排他的に生成する。

関連論文リスト

Flipping Against All Odds: Reducing LLM Coin Flip Bias via Verbalized Rejection Sampling [59.133428586090226]
大規模言語モデル(LLM)は、しばしば自然言語を用いて確率分布を正確に記述することができる。このミスマッチはモンテカルロ法、エージェントベースのシミュレーション、ランダム化された意思決定などの信頼性を必要とするタスクでの使用を制限する。本稿では,古典的リジェクションサンプリングの自然言語適応であるVerbalized Rejection Smpling (VRS)を紹介する。
論文参考訳（メタデータ） (2025-06-11T17:59:58Z)
Distribution Prompting: Understanding the Expressivity of Language Models Through the Next-Token Distributions They Can Produce [16.149411731945968]
いくつかの分布は、他の分布よりもはるかに困難であることを示す。非常に低いエントロピーあるいは非常に高いエントロピーの分布は、中間エントロピーの分布よりも近似が容易である。
論文参考訳（メタデータ） (2025-05-18T05:49:48Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration [39.35476224845088]
大規模言語モデル(LLM)は様々なタスクにおいて補完的な強みを示し、LLMアンサンブルの研究を動機付けている。本稿では,各復号ステップで異なるLLMから得られる情報的確率分布を融合した学習自由アンサンブルフレームワークDeePEnを提案する。
論文参考訳（メタデータ） (2024-04-19T08:52:22Z)
Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation [73.58618024960968]
人間のシーケンシャルな意思決定過程をエミュレートするエージェントとして、大きな言語モデル(LLM)を採用する研究が増えている。このことは、確率分布を理解するためにLLMエージェントの容量に関する好奇心を喚起する。分析の結果, LLM エージェントは確率を理解できるが, 確率サンプリングに苦慮していることがわかった。
論文参考訳（メタデータ） (2024-04-13T16:59:28Z)
Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文参考訳（メタデータ） (2022-03-24T01:09:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。