論文の概要: Beyond Reproducibility: Token Probabilities Expose Large Language Model Nondeterminism
- arxiv url: http://arxiv.org/abs/2601.06118v1
- Date: Sat, 03 Jan 2026 18:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.587973
- Title: Beyond Reproducibility: Token Probabilities Expose Large Language Model Nondeterminism
- Title(参考訳): 再現性を超えて:Token Probabilities Expose Large Language Model Nondeterminism
- Authors: Tairan Fu, Gonzalo Martínez, Javier Conde, Carlos Arriaga, Pedro Reviriego, Xiuyuan Qi, Shanshan Liu,
- Abstract要約: この研究は、生成したテキストではなく、トークン確率のバリエーションを分析することによって、非決定論を詳しく調べる。
その結果, 非決定性の影響は0.1~0.9の範囲のトークン確率において重要であることがわかった。
これは、全てのモデルがトークン確率レベルで同様の非決定論的変動を持つことを示唆している。
- 参考スコア(独自算出の注目度): 5.1233889369098735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The execution of Large Language Models (LLMs) has been shown to produce nondeterministic results when run on Graphics Processing Units (GPUs), even when they are configured to produce deterministic results. This is due to the finite precision effects of the arithmetic operations, which depend on the order in which they are executed. This order, in turn, depends on the processes that are running concurrently on the GPU. Previous studies have focused on the impact of nondeterminism on the text generated by the LLMs or on proposing mechanisms to achieve deterministic execution. This work takes a closer look at nondeterminism by analyzing the variations on the token probabilities, not on the generated text. Interestingly, all the models evaluated have similar results in both the trends and the actual values of the variations of the probabilities. In particular, the results show that the effects of nondeterminism are significant for token probabilities that are in the range of 0.1 to 0.9, while they are much smaller when the probabilities are close to 0 or 1. This has significant implications for our understanding of nondeterminism. The first is that nondeterminism will likely have a non-negligible impact on generated text when the temperature is not zero, as it introduces significant variations in the token probabilities except when they are close to 0 or 1. Secondly, it suggests that all models have similar non deterministic variations at the token probability level. Therefore, different variations in the performance of the generated text, for example, when measuring accuracy on a benchmark, seem to come from different token probabilities or response lengths. A third implication is that we may be able to estimate the impact of nondeterminism by running a single inference and analyzing the token level probabilities, instead of having to run the same inference many times.
- Abstract(参考訳): 大規模言語モデル(LLM)の実行は、グラフィクス処理ユニット(GPU)上での実行において、決定論的結果を生成するように設定された場合でも、非決定論的結果を生成することが示されている。
これは算術演算の有限精度効果によるもので、それらが実行される順序に依存する。
この順序は、GPU上で並列に実行されるプロセスに依存する。
これまでの研究は、LLMが生成したテキストに対する非決定性の影響や、決定論的実行を実現するためのメカニズムの提案に焦点をあててきた。
この研究は、生成したテキストではなく、トークン確率のバリエーションを分析することによって、非決定論を詳しく調べる。
興味深いことに、評価された全てのモデルは、確率の変動の傾向と実際の値の両方に類似した結果をもたらす。
特に、非決定性の影響は0.1から0.9の範囲のトークン確率に対して重要であるが、確率が0または1に近い場合にはより小さい。
これは、非決定論の理解に重要な意味を持つ。
第一に、非決定論は、0または1に近い場合を除いてトークン確率に有意な変化をもたらすため、温度が0でないときに生成されたテキストに無視できない影響をもたらす可能性が高い。
第二に、全てのモデルがトークン確率レベルで同様の非決定論的変動を持つことを示唆する。
したがって、例えばベンチマークで精度を測定する場合、生成されたテキストのパフォーマンスの異なるバリエーションは、異なるトークン確率または応答長から来ているように思われる。
3つ目の意味は、同一の推論を何度も実行するのではなく、単一の推論を実行し、トークンレベルの確率を分析することによって、非決定性の影響を推定できるということです。
関連論文リスト
- Certain but not Probable? Differentiating Certainty from Probability in LLM Token Outputs for Probabilistic Scenarios [1.1510009152620668]
確率確率的シナリオにおけるトークンの確実性と理論的確率分布との整合性について検討する。
本研究では,(1)シナリオ制約に対する応答妥当性,(2)トークンレベルの出力確率と理論的確率の一致の2つの次元を測る。
以上の結果から,両モデルが全てのプロンプトシナリオにおいて完全なドメイン内応答精度を達成する一方で,トークンレベルの確率とエントロピー値は対応する理論分布から常に分岐することがわかった。
論文 参考訳(メタデータ) (2025-11-01T16:51:11Z) - Causal Discovery of Linear Non-Gaussian Causal Models with Unobserved Confounding [1.6932009464531739]
我々は,線形非ガウス構造方程式モデルについて考察する。
この設定では、因果構造は特定可能であるが、一般に、特定の因果効果を識別することはできない。
論文 参考訳(メタデータ) (2024-08-09T07:24:12Z) - User-defined Event Sampling and Uncertainty Quantification in Diffusion
Models for Physical Dynamical Systems [49.75149094527068]
拡散モデルを用いて予測を行い,カオス力学系に対する不確かさの定量化が可能であることを示す。
本研究では,雑音レベルが低下するにつれて真の分布に収束する条件付きスコア関数の確率的近似法を開発する。
推論時に非線形ユーザ定義イベントを条件付きでサンプリングすることができ、分布の尾部からサンプリングした場合でもデータ統計と一致させることができる。
論文 参考訳(メタデータ) (2023-06-13T03:42:03Z) - Linking a predictive model to causal effect estimation [21.869233469885856]
本稿では、まず、ある事例における結果に対する特徴(治療としての)の因果効果を推定する挑戦に取り組む。
理論的結果は、予測モデルを因果効果推定に自然に関連付け、予測モデルが因果的解釈可能であることを示唆する。
本稿では, 種々の予測モデルを用いて, 条件を満たす場合, 特徴の因果効果を, 最先端の因果効果推定法と同じくらい正確に推定できることを実証する。
論文 参考訳(メタデータ) (2023-04-10T13:08:16Z) - Reconciling Individual Probability Forecasts [78.0074061846588]
データに同意する2つの当事者は、個々の確率をモデル化する方法に異を唱えることができない。
個々の確率は不可知であるが、計算的かつデータ効率のよいプロセスで競合できると結論付ける。
論文 参考訳(メタデータ) (2022-09-04T20:20:35Z) - Gaussian and Non-Gaussian Universality of Data Augmentation [6.51882364384472]
単純なサロゲートを用いて,データの増大が推定値の分散や分布の制限にどのように影響するかを定量化する。
データの増大は、経験的予測リスクのような見積もりの不確実性を減らすよりも増加する可能性がある。
主理論ツールとして、ブロック依存に対するリンデバーグの手法の適応を開発する。
論文 参考訳(メタデータ) (2022-02-18T11:32:41Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z) - Tractable Inference in Credal Sentential Decision Diagrams [116.6516175350871]
確率感性決定図は、解離ゲートの入力が確率値によってアノテートされる論理回路である。
我々は、局所確率を質量関数のクレーダル集合に置き換えることができる確率の一般化である、クレーダル感性決定図を開発する。
まず,ノイズの多い7セグメント表示画像に基づく簡単なアプリケーションについて検討する。
論文 参考訳(メタデータ) (2020-08-19T16:04:34Z) - Estimation of Accurate and Calibrated Uncertainties in Deterministic
models [0.8702432681310401]
我々は,決定論的予測を確率論的予測に変換する手法を考案した。
そのためには,そのようなモデルの精度と信頼性(校正)を損なう必要がある。
隠れたノイズを正確に回収できる合成データと、大規模な実世界のデータセットの両方について、いくつかの例を示す。
論文 参考訳(メタデータ) (2020-03-11T04:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。