論文の概要: LLM-42: Enabling Determinism in LLM Inference with Verified Speculation
- arxiv url: http://arxiv.org/abs/2601.17768v1
- Date: Sun, 25 Jan 2026 09:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.326504
- Title: LLM-42: Enabling Determinism in LLM Inference with Verified Speculation
- Title(参考訳): LLM-42: 検証された推測によるLLM推論における決定性の実現
- Authors: Raja Gond, Aditya K Kamath, Arkaprava Basu, Ramachandran Ramjee, Ashish Panwar,
- Abstract要約: LLM推論では、同じプロンプトが異なるランで異なるアウトプットを生成する。
この非決定論は、浮動小数点非結合性と動的トークンの組み合わせから生じる。
推論における決定性を実現するためのスケジューリングベースのアプローチであるLSM-42を提案する。
- 参考スコア(独自算出の注目度): 9.210733890540814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In LLM inference, the same prompt may yield different outputs across different runs. At the system level, this non-determinism arises from floating-point non-associativity combined with dynamic batching and GPU kernels whose reduction orders vary with batch size. A straightforward way to eliminate non-determinism is to disable dynamic batching during inference, but doing so severely degrades throughput. Another approach is to make kernels batch-invariant; however, this tightly couples determinism to kernel design, requiring new implementations. This coupling also imposes fixed runtime overheads, regardless of how much of the workload actually requires determinism. Inspired by ideas from speculative decoding, we present LLM-42, a scheduling-based approach to enable determinism in LLM inference. Our key observation is that if a sequence is in a consistent state, the next emitted token is likely to be consistent even with dynamic batching. Moreover, most GPU kernels use shape-consistent reductions. Leveraging these insights, LLM-42 decodes tokens using a non-deterministic fast path and enforces determinism via a lightweight verify-rollback loop. The verifier replays candidate tokens under a fixed-shape reduction schedule, commits those that are guaranteed to be consistent across runs, and rolls back those violating determinism. LLM-42 mostly re-uses existing kernels unchanged and incurs overhead only in proportion to the traffic that requires determinism.
- Abstract(参考訳): LLM推論では、同じプロンプトが異なるランで異なるアウトプットを生成する。
システムレベルでは、この非決定性は浮動小数点非連想性と動的バッチとGPUカーネルの組み合わせによって生じる。
非決定性を排除するための簡単な方法は、推論中に動的バッチを無効にすることだが、スループットを著しく低下させる。
もうひとつのアプローチは、カーネルをバッチ不変にすることだが、これはカーネル設計に決定性を密結合させ、新しい実装を必要とする。
この結合はまた、実際にワークロードが決定性を必要とするかに関わらず、固定されたランタイムオーバーヘッドを課します。
投機的復号法から着想を得たLLM-42を提案する。
私たちのキーとなる観察は、シーケンスが一貫した状態であれば、次の出力トークンは動的バッチ処理でも一貫性がある可能性が高いということです。
さらに、ほとんどのGPUカーネルは形状に一貫性のあるリダクションを使用する。
これらの洞察を活用して、LCM-42は、非決定論的高速パスを使用してトークンをデコードし、軽量な検証ロールバックループを通じて決定性を強制する。
検証者は、固定形還元スケジュールの下で候補トークンをリプレイし、実行中に一貫性があることを保証するトークンをコミットし、違反する決定をロールバックする。
LLM-42は主に既存のカーネルを再使用し、決定性を必要とするトラフィックに比例してオーバーヘッドを発生させる。
関連論文リスト
- Stochastic CHAOS: Why Deterministic Inference Kills, and Distributional Variability Is the Heartbeat of Artifical Cognition [14.945980804235885]
LLMにとって、決定論的推論は致命的である、と我々は主張する。
不確実性をモデル化し、創発的な能力を抑え、単一の脆い経路に推論を崩壊させ、尾のリスクを隠すことで安全性のアライメントを弱める。
論文 参考訳(メタデータ) (2026-01-12T06:19:09Z) - Deterministic Inference across Tensor Parallel Sizes That Eliminates Training-Inference Mismatch [21.951981326540878]
既存のLLMサービスフレームワークは、非決定論的行動を示す。
これは浮動小数点算術の非連想性から生じる。
本稿では,TP-不変行列乗算と還元プリミティブの集合であるTree-Based Invariant Kernels (TBIK)を提案する。
論文 参考訳(メタデータ) (2025-11-21T22:40:00Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs [52.663816303997194]
回答の質に影響を与える重要な要因は思考段階の長さである。
本稿では, LLM が推論の長さを理解し, 制御するメカニズムを探求し, 活用する。
以上の結果から,この「オーバークロック」手法は過度な思考を軽減し,解答精度を向上し,推論遅延を低減することが示唆された。
論文 参考訳(メタデータ) (2025-06-08T17:54:33Z) - DINGO: Constrained Inference for Diffusion LLMs [5.971462597321995]
拡散モデルは、ユーザが指定した形式的な制約を確実に強制する能力に欠ける。
本稿では,動的プログラミングに基づく動的復号化戦略であるINGOを提案する。
論文 参考訳(メタデータ) (2025-05-29T04:04:54Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - Efficiently Scaling LLM Reasoning with Certaindex [25.549811985276488]
テストタイム推論アルゴリズムは、精度を向上することなく、多くのトークンを無駄に生成することができる。
本稿では,アルゴリズムに依存しない測定値であるCertaindexを導入する。
Certaindexは軽量で、早期終了による推論プログラムの推論を加速し、動的トークン割り当てを可能にする。
論文 参考訳(メタデータ) (2024-12-30T14:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。