論文の概要: Verifying Computational Graphs in Production-Grade Distributed Machine Learning Frameworks
- arxiv url: http://arxiv.org/abs/2509.10694v1
- Date: Fri, 12 Sep 2025 21:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.733455
- Title: Verifying Computational Graphs in Production-Grade Distributed Machine Learning Frameworks
- Title(参考訳): プロダクショングレード分散機械学習フレームワークにおける計算グラフの検証
- Authors: Kahfi S. Zulkifli, Wenbo Qian, Shaowei Zhu, Yuan Zhou, Zhen Zhang, Chang Lou,
- Abstract要約: 本稿では,計算グラフの意味的等価性を検証することによって,サイレントエラーを露呈する軽量フレームワークであるScalifyを提案する。
スケールするために、Scalifyはグラフを並列リライトと層メモ化で分割し、リライトテンプレートを再利用し、リレーショナル推論による等式飽和を増大させる。
- 参考スコア(独自算出の注目度): 7.063871496143545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern machine learning frameworks support very large models by incorporating parallelism and optimization techniques. Yet, these very techniques add new layers of complexity, introducing silent errors that severely degrade model performance. Existing solutions are either ad hoc or too costly for production. We present Scalify, a lightweight framework that exposes silent errors by verifying semantic equivalence of computational graphs using equality saturation and Datalog-style reasoning. To scale, Scalify partitions graphs with parallel rewriting and layer memoization, reuses rewrite templates, and augments equality saturation with relational reasoning and symbolic bijection inference. It further localizes discrepancies to precise code sites, turning verification results into actionable debugging guidance. Scalify verifies models as large as Llama-3.1-405B within minutes on a commodity machine and exposed five unknown bugs in Amazon production machine learning frameworks.
- Abstract(参考訳): 現代の機械学習フレームワークは、並列性と最適化技術を組み込むことで、非常に大きなモデルをサポートする。
しかし、これらのテクニックは、モデルパフォーマンスを著しく低下させるサイレントエラーを導入し、新しいレイヤの複雑さをもたらします。
既存のソリューションはアドホックか、生産には高すぎる。
等式飽和とデータログ型推論を用いて,計算グラフの意味的等価性を検証し,サイレントエラーを露呈する軽量フレームワークであるScalifyを提案する。
スケールするために、Scalifyはグラフを並列リライトと層メモ化で分割し、書き直しテンプレートを再利用し、リレーショナル推論とシンボリックビジェクション推論による等式飽和を増大させる。
さらに、正確なコードサイトへの不一致をローカライズし、検証結果を実行可能なデバッグガイドに変換する。
Scalifyはコモディティマシン上でLlama-3.1-405Bほどの大きさのモデルを検証し、Amazonプロダクション機械学習フレームワークの5つの未知のバグを暴露する。
関連論文リスト
- Verify Distributed Deep Learning Model Implementation Refinement with Iterative Relation Inference [5.699231128144775]
今日では、分散機械学習のトレーニングと推論が一般的である。なぜなら、今日の大きなモデルは、単一のGPUで提供できる以上のメモリと計算を必要とするからだ。
本稿では,モデル修正をチェックすることによって,このようなバグを静的に識別する手法について述べる。
GraphGuardで実装された我々のアプローチは、反復的な書き換えを使ってモデルの洗練を証明します。
論文 参考訳(メタデータ) (2025-08-13T05:33:25Z) - Unified Scaling Laws for Compressed Representations [69.72517034565467]
各種圧縮表現上でのトレーニングにおいて,統合スケーリングフレームワークがモデル性能を正確に予測できるかどうかを検討する。
我々の主な発見は、単純な「容量」計量が存在するという理論と経験の両方を実証することである。
我々は、圧縮されたフォーマットの精度を直接比較し、スパース量子化されたフォーマットのトレーニングのためのより良いアルゴリズムを導出するために、定式化を拡張した。
論文 参考訳(メタデータ) (2025-06-02T16:52:51Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Reinforcement Learning for Graph Coloring: Understanding the Power and
Limits of Non-Label Invariant Representations [0.0]
本稿では,グラフ着色問題の解法を近似ポリシ最適化モデルで学習できることを示す。
また、グラフの行列表現を取り込み、それを置換することにより、グラフのラベル付けがモデルの性能に重要であることを示す。
論文 参考訳(メタデータ) (2024-01-23T03:43:34Z) - GVdoc: Graph-based Visual Document Classification [17.350393956461783]
グラフに基づく文書分類モデルであるGVdocを提案する。
提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。
パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T19:23:20Z) - Heterogeneous Line Graph Transformer for Math Word Problems [21.4761673982334]
本稿では,オンライン学習システムのための新しい機械学習モデルの設計と実装について述べる。
我々は,自動算術語問題解決システムの実現により,システムの知能レベルを向上することを目指している。
論文 参考訳(メタデータ) (2022-08-11T05:27:05Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Distributed Training of Graph Convolutional Networks using Subgraph
Approximation [72.89940126490715]
本稿では,グラフの複数の分割にまたがる失われる情報をサブグラフ近似スキームで緩和するトレーニング戦略を提案する。
サブグラフ近似アプローチは、分散トレーニングシステムが単一マシン精度で収束するのに役立つ。
論文 参考訳(メタデータ) (2020-12-09T09:23:49Z) - Rethinking Generative Zero-Shot Learning: An Ensemble Learning
Perspective for Recognising Visual Patches [52.67723703088284]
我々はMPGAN(Multi-patch Generative Adversarial Nets)と呼ばれる新しいフレームワークを提案する。
MPGANは、新しい重み付き投票戦略で、ローカルパッチ機能とラベルが見えないクラスを合成する。
MPGANは最先端の手法よりもはるかに精度が高い。
論文 参考訳(メタデータ) (2020-07-27T05:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。