論文の概要: Evaluating the Quality of Randomness and Entropy in Tasks Supported by Large Language Models
- arxiv url: http://arxiv.org/abs/2510.12080v1
- Date: Tue, 14 Oct 2025 02:43:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.15357
- Title: Evaluating the Quality of Randomness and Entropy in Tasks Supported by Large Language Models
- Title(参考訳): 大規模言語モデルによるタスクのランダム性とエントロピーの品質評価
- Authors: Rabimba Karanjai, Yang Lu, Ranjith Chodavarapu, Lei Xu, Weidong Shi,
- Abstract要約: 大規模言語モデル(LLM)技術は様々な応用をもたらし、その多くが本質的にランダム性を必要とする。
本稿では,一連の実験を通してランダム性を伴うタスクを扱うためのLLMの能力について検討する。
実験では、ランダム番号の生成、パスワードなどのランダム文字列の生成、シャッフルアイテム、ランダムネスの品質評価など、さまざまなタスクがカバーされている。
- 参考スコア(独自算出の注目度): 8.339789704552706
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid advancement of large language model (LLM) technology has led to diverse applications, many of which inherently require randomness, such as stochastic decision-making, gaming, scheduling, AI agents, and cryptography-related tasks. However, the capabilities of LLMs in handling randomness, particularly in generating and utilizing random numbers effectively, remain unclear. This paper investigates the capacity of LLMs for handling tasks that involve randomness through a series of experiments. We designed a set of experiments that consider various factors that can influence an LLM's performance in tasks involving randomness, such as accessibility to external tools, types of tasks, model states (fresh vs. non-fresh), and prompting strategies. The experiments cover a range of tasks, including generating random numbers, generating random strings such as passwords, shuffling items, and evaluating the quality of randomness using entropy and the NIST randomness test-suite. Our findings reveal that while LLMs can generate outputs that exhibit some degree of randomness, their performance is inconsistent and often deviates significantly from the expected behavior. The analysis of the experimental results highlights key limitations and areas where improvement is needed for the LLMs to effectively handle tasks involving randomness
- Abstract(参考訳): 大規模言語モデル(LLM)技術の急速な進歩は、確率的意思決定、ゲーム、スケジューリング、AIエージェント、暗号関連のタスクなど、本質的にランダム性を必要とする様々な応用につながっている。
しかし、ランダム性、特に乱数の生成と有効利用におけるLLMの能力は、いまだに不明である。
本稿では,一連の実験を通してランダム性を伴うタスクを扱うためのLLMの能力について検討する。
我々は、外部ツールへのアクセシビリティ、タスクの種類、モデル状態(フレッシュ対非フレッシュ)、戦略の推進など、ランダム性に関わるタスクにおいて、LCMのパフォーマンスに影響を与えるさまざまな要因を考察する実験を設計した。
実験では、乱数の生成、パスワードやシャッフルアイテムなどのランダム文字列の生成、エントロピーとNISTランダムネステストスーツを使用したランダムネスの品質評価など、さまざまなタスクをカバーしている。
その結果, LLMはある程度のランダム性を示す出力を生成できるが, その性能は矛盾しており, 期待した挙動から大きく逸脱することが多いことがわかった。
実験結果の分析は、LLMがランダム性を伴うタスクを効果的に処理するために必要な重要な限界と領域を強調している。
関連論文リスト
- Reasoning Under Uncertainty: Exploring Probabilistic Reasoning Capabilities of LLMs [47.20307724127832]
我々は,大規模言語モデル(LLM)の推論能力について,初めて包括的な研究を行った。
我々は,3つの注意深く設計されたタスク,モード識別,最大推定,サンプル生成のモデルを評価する。
経験的評価を通じて、より小さなモデルと大きなモデルの間に明らかなパフォーマンスギャップがあることを実証する。
論文 参考訳(メタデータ) (2025-09-12T22:58:05Z) - Quantum Random Number Generator (QRNG): Theoretical and Experimental Investigations [2.2202064228378084]
量子乱数生成器(QRNG)は、真にランダムな数を生成するための有望なソリューションとして登場した。
本稿では,様々な戦略のメリットとデメリットを強調したQRNGの概要を紹介する。
ホモダイン検出技術を用いてQRNGの構築と特徴付けのための詳細な実験を行った。
論文 参考訳(メタデータ) (2025-06-03T04:55:37Z) - Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments [40.869524679544824]
Posterior and Diversity Synergized Task Smpling (PDTS) は、高速かつ堅牢なシーケンシャルな意思決定を実現するための、実装が容易な方法である。
PDTSは、堅牢なアクティブタスクサンプリングの可能性を解き、挑戦的なタスクにおけるゼロショットおよび少数ショット適応ロバスト性を大幅に改善し、特定のシナリオ下での学習プロセスを加速する。
論文 参考訳(メタデータ) (2025-04-27T07:27:17Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Benchmarking LLMs' Mathematical Reasoning with Unseen Random Variables Questions [40.65711363554025]
数学的推論における大規模言語モデル(LLM)のベンチマークのための新しい評価手法であるRV-Benchを提案する。
具体的には、バックグラウンドコンテンツが元のベンチマーク問題を反映するランダム変数質問(RVQ)を生成するために、質問生成関数を構築する。
我々は,1000以上のRVQを対象とした30以上の代表LSM実験を行った。
論文 参考訳(メタデータ) (2025-01-20T23:41:22Z) - Optimization of experimental quantum randomness expansion [0.0]
本稿ではベルの不等式違反に基づくQRNG(Quantum Random Number Generator)の設計と性能最適化について包括的に分析する。
我々は、ランダムネス消費とネットランダムネス生成のトレードオフをバランスさせるために、$gamma$と$p_Omega$の最適範囲を同定する。
以上の結果から,QRNG実装の大幅な発展と,ランダム性向上率の向上が示唆された。
論文 参考訳(メタデータ) (2024-11-07T18:12:58Z) - Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation [73.58618024960968]
人間のシーケンシャルな意思決定過程をエミュレートするエージェントとして、大きな言語モデル(LLM)を採用する研究が増えている。
このことは、確率分布を理解するためにLLMエージェントの容量に関する好奇心を喚起する。
分析の結果, LLM エージェントは確率を理解できるが, 確率サンプリングに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-04-13T16:59:28Z) - Machine Learning Cryptanalysis of a Quantum Random Number Generator [3.874286636878538]
暗号アプリケーションに不可欠な乱数生成器(RNG)は、敵攻撃の対象となっている。
我々は,光学連続変数QRNGの異なる段階における決定論的古典雑音の影響を調べるために,予測機械学習(ML)解析を開発した。
論文 参考訳(メタデータ) (2019-05-07T03:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。