論文の概要: Deterministic Inference across Tensor Parallel Sizes That Eliminates Training-Inference Mismatch
- arxiv url: http://arxiv.org/abs/2511.17826v1
- Date: Fri, 21 Nov 2025 22:40:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.456728
- Title: Deterministic Inference across Tensor Parallel Sizes That Eliminates Training-Inference Mismatch
- Title(参考訳): トレーニング-推論ミスマッチを除去するテンソルパラレルサイズ間の決定論的推論
- Authors: Ziyang Zhang, Xinheng Ding, Jiayi Yuan, Rixin Liu, Huizi Mao, Jiarong Xing, Zirui Liu,
- Abstract要約: 既存のLLMサービスフレームワークは、非決定論的行動を示す。
これは浮動小数点算術の非連想性から生じる。
本稿では,TP-不変行列乗算と還元プリミティブの集合であるTree-Based Invariant Kernels (TBIK)を提案する。
- 参考スコア(独自算出の注目度): 21.951981326540878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deterministic inference is increasingly critical for large language model (LLM) applications such as LLM-as-a-judge evaluation, multi-agent systems, and Reinforcement Learning (RL). However, existing LLM serving frameworks exhibit non-deterministic behavior: identical inputs can yield different outputs when system configurations (e.g., tensor parallel (TP) size, batch size) vary, even under greedy decoding. This arises from the non-associativity of floating-point arithmetic and inconsistent reduction orders across GPUs. While prior work has addressed batch-size-related nondeterminism through batch-invariant kernels, determinism across different TP sizes remains an open problem, particularly in RL settings, where the training engine typically uses Fully Sharded Data Parallel (i.e., TP = 1) while the rollout engine relies on multi-GPU TP to maximize the inference throughput, creating a natural mismatch between the two. This precision mismatch problem may lead to suboptimal performance or even collapse for RL training. We identify and analyze the root causes of TP-induced inconsistency and propose Tree-Based Invariant Kernels (TBIK), a set of TP-invariant matrix multiplication and reduction primitives that guarantee bit-wise identical results regardless of TP size. Our key insight is to align intra- and inter-GPU reduction orders through a unified hierarchical binary tree structure. We implement these kernels in Triton and integrate them into vLLM and FSDP. Experiments confirm zero probability divergence and bit-wise reproducibility for deterministic inference across different TP sizes. Also, we achieve bit-wise identical results between vLLM and FSDP in RL training pipelines with different parallel strategy. Code is available at https://github.com/nanomaoli/llm_reproducibility.
- Abstract(参考訳): LLM-as-a-judge評価、マルチエージェントシステム、強化学習(RL)などの大規模言語モデル(LLM)アプリケーションでは、決定論的推論がますます重要になっている。
しかし、既存のLCMサービスフレームワークは非決定論的動作を示しており、同じ入力はシステム構成(例えば、テンソル並列(TP)サイズ、バッチサイズ)が異なる場合、greedyデコードの下でも異なる出力が得られる。
これは、浮動小数点演算とGPU間の不整合還元順序の非連想性から生じる。
以前の研究はバッチ不変カーネルによるバッチサイズ関連の非決定性に対処してきたが、特にRL設定では、トレーニングエンジンが通常Fully Sharded Data Parallel(TP = 1)を使用し、ロールアウトエンジンは推論スループットを最大化するためにマルチGPU TPに依存しているため、異なるTPサイズの決定性はオープンな問題である。
この精度のミスマッチ問題は、RLトレーニングの最適性能や崩壊につながる可能性がある。
TPによる不整合の根本原因を特定し解析し,TP-不変行列乗算と縮小プリミティブの集合であるTree-based Invariant Kernels (TBIK)を提案する。
我々の重要な洞察は、階層化されたバイナリツリー構造を通じてGPU内およびGPU間リダクションの順序を調整することである。
我々はこれらのカーネルをTritonに実装し、それをvLLMとFSDPに統合する。
実験は、異なるTPサイズにわたる決定論的推論に対して、ゼロ確率ばらつきとビットワイズ再現性を確認した。
また、異なる並列戦略を持つRLトレーニングパイプラインにおいて、vLLMとFSDPのビット単位の同一結果を得る。
コードはhttps://github.com/nanomaoli/llm_reproducibilityで入手できる。
関連論文リスト
- DeepPrune: Parallel Scaling without Inter-trace Redundancy [53.62015294143274]
並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。
動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
論文 参考訳(メタデータ) (2025-10-09T17:24:54Z) - Rethinking Thinking Tokens: LLMs as Improvement Operators [80.12087211785949]
推論トレーニングは、LLMに長い思考の連鎖(長いCoT)を生み出す動機を与え、自己チェックによるソリューション戦略を探索することを可能にする。
これにより、精度が高くなりますが、コンテキストの長さ、トークン/計算コスト、応答レイテンシが膨らみます。
現在のモデルはメタ認知を活用して、このParetoフロンティアで他の組み合わせを提供できるのでしょうか?
i) 多様なドラフトを並列に生成し、(ii) それらを有界なテキストワークスペースに蒸留し、(iii) このワークスペース上に条件付き精製する。
論文 参考訳(メタデータ) (2025-10-01T17:08:59Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference [31.2331188304598]
評価バッチサイズ、GPUカウント、GPUバージョンなどのシステム構成の変更は、生成されたレスポンスに大きな違いをもたらす可能性がある。
この変数の根本原因は、限定的な数値精度で浮動小数点算術の非連想性に遡る。
そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文 参考訳(メタデータ) (2025-06-11T08:23:53Z) - Robustness of deep learning classification to adversarial input on GPUs: asynchronous parallel accumulation is a source of vulnerability [4.054484966653432]
機械学習(ML)分類モデルの安全性と信頼性の重要な尺度は、小さな、ターゲットとする入力摂動に抵抗する能力である。
浮動小数点非連想性がGPU上での非同期並列プログラミングと結合し,誤分類を生じさせることを示す。
また, 機械レベルの詳細を考慮しない場合, 標準対向ロバスト性は4.6まで過大評価されることが示唆された。
論文 参考訳(メタデータ) (2025-03-21T14:19:45Z) - RTP: Rethinking Tensor Parallelism with Memory Deduplication [3.036340414461332]
Rotated Parallelism(RTP)は、分散トレーニング環境におけるメモリ重複に着目した革新的なアプローチである。
我々の経験的評価はRTPの効率を裏付けるものであり、分散システムトレーニング中のメモリ消費が極めて最適に近いことを示している。
論文 参考訳(メタデータ) (2023-11-02T23:12:42Z) - Distributed Extra-gradient with Optimal Complexity and Communication
Guarantees [60.571030754252824]
複数のプロセッサ/ワーカー/クライアントがローカルなデュアルベクトルにアクセス可能なマルチGPU設定において、モノトン変分不等式(VI)問題を考察する。
モノトーンVI問題に対するデファクトアルゴリズムであるExtra-gradientは、通信効率が良くないように設計されている。
そこで本稿では,VI の解法に適した非バイアスで適応的な圧縮手法である量子化一般化外部勾配 (Q-GenX) を提案する。
論文 参考訳(メタデータ) (2023-08-17T21:15:04Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。