論文の概要: Stochastic CHAOS: Why Deterministic Inference Kills, and Distributional Variability Is the Heartbeat of Artifical Cognition
- arxiv url: http://arxiv.org/abs/2601.07239v1
- Date: Mon, 12 Jan 2026 06:19:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.241169
- Title: Stochastic CHAOS: Why Deterministic Inference Kills, and Distributional Variability Is the Heartbeat of Artifical Cognition
- Title(参考訳): 確率的CHAOS:なぜ決定論的推論が致命的であり、分布変動が人工認知の心拍数であるのか
- Authors: Tanmay Joshi, Shourya Aggarwal, Anusa Saha, Aadi Pandey, Shreyash Dhoot, Vighnesh Rai, Raxit Goswami, Aman Chadha, Vinija Jain, Amitava Das,
- Abstract要約: LLMにとって、決定論的推論は致命的である、と我々は主張する。
不確実性をモデル化し、創発的な能力を抑え、単一の脆い経路に推論を崩壊させ、尾のリスクを隠すことで安全性のアライメントを弱める。
- 参考スコア(独自算出の注目度): 14.945980804235885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deterministic inference is a comforting ideal in classical software: the same program on the same input should always produce the same output. As large language models move into real-world deployment, this ideal has been imported wholesale into inference stacks. Recent work from the Thinking Machines Lab has presented a detailed analysis of nondeterminism in LLM inference, showing how batch-invariant kernels and deterministic attention can enforce bitwise-identical outputs, positioning deterministic inference as a prerequisite for reproducibility and enterprise reliability. In this paper, we take the opposite stance. We argue that, for LLMs, deterministic inference kills. It kills the ability to model uncertainty, suppresses emergent abilities, collapses reasoning into a single brittle path, and weakens safety alignment by hiding tail risks. LLMs implement conditional distributions over outputs, not fixed functions. Collapsing these distributions to a single canonical completion may appear reassuring, but it systematically conceals properties central to artificial cognition. We instead advocate Stochastic CHAOS, treating distributional variability as a signal to be measured and controlled. Empirically, we show that deterministic inference is systematically misleading. Single-sample deterministic evaluation underestimates both capability and fragility, masking failure probability under paraphrases and noise. Phase-like transitions associated with emergent abilities disappear under greedy decoding. Multi-path reasoning degrades when forced onto deterministic backbones, reducing accuracy and diagnostic insight. Finally, deterministic evaluation underestimates safety risk by hiding rare but dangerous behaviors that appear only under multi-sample evaluation.
- Abstract(参考訳): 決定論的推論は古典的ソフトウェアにおいて快適な理想であり、同じ入力上の同じプログラムが常に同じ出力を生成するべきである。
大規模な言語モデルが現実世界のデプロイメントへと移行するにつれ、この理想はインジェクションスタックに輸入された。
最近のThinking Machines Labの研究は、LLM推論における非決定性に関する詳細な分析を示し、バッチ不変カーネルと決定論的注意がどのようにビットワイズ識別出力を強制するかを示し、再現性と企業信頼性の前提として決定論的推論を位置づけている。
本稿では,逆の立場を取る。
LLMにとって、決定論的推論は致命的である、と我々は主張する。
不確実性をモデル化し、創発的な能力を抑え、単一の脆い経路に推論を崩壊させ、尾のリスクを隠すことで安全性のアライメントを弱める。
LLMは、固定関数ではなく出力上の条件分布を実装している。
これらの分布を単一の正準完備化に分解することは再保証されるように見えるが、人工的な認知の中心となる性質を体系的に隠蔽する。
代わりに、確率的CHAOSを提唱し、分布変動を測定・制御する信号として扱う。
経験的に、決定論的推論は体系的に誤解を招く。
単一サンプル決定論的評価は、機能と脆弱性、パラフレーズとノイズによる障害確率を過小評価する。
創発能力に関連する相様遷移は、強欲な復号化の下で消失する。
多経路推論は、決定論的バックボーンに強制されると劣化し、精度と診断の洞察が低下する。
最後に、決定論的評価は、多サンプル評価の下でのみ現れる稀だが危険な行動を隠すことによって、安全性のリスクを過小評価する。
関連論文リスト
- Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models [12.743668975795144]
大規模言語モデル(LLM)は自然言語処理を変換しているが、信頼性の高いデプロイメントには有効な不確実性定量化(UQ)が必要である。
既存のUQ手法はしばしば確率論的解釈を欠いている。
本稿では, 与えられた出力に条件付き入力空間の多様性を評価することによって不確実性を定量的に評価する, 逆モデルに基づく完全確率的フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T13:02:17Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。