論文の概要: TrainVerify: Equivalence-Based Verification for Distributed LLM Training
- arxiv url: http://arxiv.org/abs/2506.15961v1
- Date: Thu, 19 Jun 2025 02:10:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.909188
- Title: TrainVerify: Equivalence-Based Verification for Distributed LLM Training
- Title(参考訳): TrainVerify: 分散LLMトレーニングのための等価ベースの検証
- Authors: Yunchi Lu, Youshan Miao, Cheng Tan, Peng Huang, Yi Zhu, Xian Zhang, Fan Yang,
- Abstract要約: 大規模言語モデル(LLM)を大規模にトレーニングするには、数千のデバイスで並列実行する必要がある。
LLMの分散トレーニングを検証可能なシステムであるTraiVerifyを導入する。
- 参考スコア(独自算出の注目度): 13.619685369482758
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training large language models (LLMs) at scale requires parallel execution across thousands of devices, incurring enormous computational costs. Yet, these costly distributed trainings are rarely verified, leaving them prone to silent errors and potentially wasting millions of GPU hours. We introduce TrainVerify, a system for verifiable distributed training of LLMs. Given a deep learning model's logical specification as the ground truth, TrainVerify formally verifies that a distributed parallel execution plan is mathematically equivalent to it. Direct verification is notoriously difficult due to the sheer scale of LLMs which often involves billions of variables and highly intricate computation graphs. Therefore, TrainVerify introduces shape-reduction techniques and a stage-wise parallel verification algorithm that significantly reduces complexity while preserving formal correctness. TrainVerify scales to frontier LLMs, including the successful verification of the Llama3 (405B) and DeepSeek-V3 (671B) training plans.
- Abstract(参考訳): 大きな言語モデル(LLM)を大規模にトレーニングするには、数千のデバイスで並列実行する必要がある。
しかし、これらの高価な分散トレーニングはめったに検証されず、サイレントエラーを起こし、数百万のGPU時間を浪費する可能性がある。
LLMの分散トレーニングを検証可能なシステムであるTraiVerifyを導入する。
TrainVerifyは、ディープラーニングモデルの論理的仕様を基礎として、分散並列実行計画が数学的にそれと等価であることを正式に検証する。
直接検証は、数十億の変数と非常に複雑な計算グラフを含むLLMの厳密なスケールのため、非常に難しい。
そこでTraiVerifyでは,形式的正確性を維持しつつ,複雑性を著しく低減する形状推論手法と段階的並列検証アルゴリズムを導入している。
TrainVerifyはLlama3 (405B) とDeepSeek-V3 (671B) の訓練計画の検証に成功している。
関連論文リスト
- e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs [49.01449646799905]
既存の推論モデルでは外挿がうまく行われていないことが示される。
レシピ e3 は AIME'25 と HMMT'25 のスコアに基づいて最もよく知られた 1.7B モデルを生成する。
e3-1.7Bモデルは、高いpass@1スコアを得るだけでなく、ベースモデルよりもpass@kを改善する。
論文 参考訳(メタデータ) (2025-06-10T17:52:42Z) - RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning [26.95555634754465]
Tangoは、LLMジェネレータと検証器の両方を同時にトレーニングするためにReinforcement Learningを使用する、新しいフレームワークである。
Tangoの中心的な革新は、生成プロセスレベルのLCM検証であり、RLを介してトレーニングされ、ジェネレータと共進化する。
実験により,Tangoの2つのコンポーネントが7B/8Bスケールモデルで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2025-05-21T02:43:15Z) - Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文 参考訳(メタデータ) (2025-02-17T18:43:24Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation [32.01836613286288]
この研究は、完全なビナライズされた大規模言語モデル(FBI-LLM)を提示する。
大規模なバイナリ言語モデルをスクラッチからトレーニングする方法を初めて示すものだ。
論文 参考訳(メタデータ) (2024-07-09T17:59:48Z) - One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments [43.107261545706415]
大規模言語モデル(LLM)は急速に進歩しているが、かなりのメモリ需要に直面している。
現在の方法では、量子化損失によるパフォーマンス劣化を軽減するために、通常、長いトレーニングが必要です。
我々は、一度限りのフレームワークを大規模言語モデルに拡張する最初の試みを行っている。
論文 参考訳(メタデータ) (2024-05-30T16:05:15Z) - vTrain: A Simulation Framework for Evaluating Cost-effective and Compute-optimal Large Language Model Training [3.0051215935332505]
本稿では, プロファイリング駆動型シミュレータvTrainについて, 効率的かつ費用対効果の高いトレーニングシステム構成を決定する。
いくつかのケーススタディ、例えば最適な訓練並列化戦略を効果的に評価することで、vTrainの実用性を実証する。
論文 参考訳(メタデータ) (2023-11-27T13:35:15Z) - $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest
Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。
$k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。
数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-24T06:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。