論文の概要: Verifying Computational Graphs in Production-Grade Distributed Machine Learning Frameworks
- arxiv url: http://arxiv.org/abs/2509.10694v1
- Date: Fri, 12 Sep 2025 21:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.733455
- Title: Verifying Computational Graphs in Production-Grade Distributed Machine Learning Frameworks
- Title(参考訳): プロダクショングレード分散機械学習フレームワークにおける計算グラフの検証
- Authors: Kahfi S. Zulkifli, Wenbo Qian, Shaowei Zhu, Yuan Zhou, Zhen Zhang, Chang Lou,
- Abstract要約: 本稿では,計算グラフの意味的等価性を検証することによって,サイレントエラーを露呈する軽量フレームワークであるScalifyを提案する。
スケールするために、Scalifyはグラフを並列リライトと層メモ化で分割し、リライトテンプレートを再利用し、リレーショナル推論による等式飽和を増大させる。
- 参考スコア(独自算出の注目度): 7.063871496143545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern machine learning frameworks support very large models by incorporating parallelism and optimization techniques. Yet, these very techniques add new layers of complexity, introducing silent errors that severely degrade model performance. Existing solutions are either ad hoc or too costly for production. We present Scalify, a lightweight framework that exposes silent errors by verifying semantic equivalence of computational graphs using equality saturation and Datalog-style reasoning. To scale, Scalify partitions graphs with parallel rewriting and layer memoization, reuses rewrite templates, and augments equality saturation with relational reasoning and symbolic bijection inference. It further localizes discrepancies to precise code sites, turning verification results into actionable debugging guidance. Scalify verifies models as large as Llama-3.1-405B within minutes on a commodity machine and exposed five unknown bugs in Amazon production machine learning frameworks.
- Abstract(参考訳): 現代の機械学習フレームワークは、並列性と最適化技術を組み込むことで、非常に大きなモデルをサポートする。
しかし、これらのテクニックは、モデルパフォーマンスを著しく低下させるサイレントエラーを導入し、新しいレイヤの複雑さをもたらします。
既存のソリューションはアドホックか、生産には高すぎる。
等式飽和とデータログ型推論を用いて,計算グラフの意味的等価性を検証し,サイレントエラーを露呈する軽量フレームワークであるScalifyを提案する。
スケールするために、Scalifyはグラフを並列リライトと層メモ化で分割し、書き直しテンプレートを再利用し、リレーショナル推論とシンボリックビジェクション推論による等式飽和を増大させる。
さらに、正確なコードサイトへの不一致をローカライズし、検証結果を実行可能なデバッグガイドに変換する。
Scalifyはコモディティマシン上でLlama-3.1-405Bほどの大きさのモデルを検証し、Amazonプロダクション機械学習フレームワークの5つの未知のバグを暴露する。
関連論文リスト
- Smoothing the Black-Box: Signed-Distance Supervision for Black-Box Model Copying [0.6015898117103069]
ブラックボックスのコピーは、レガシーモデルをアップグレードする実用的なメカニズムを提供する。
ハードラベル出力に制限された場合、コピーは不連続な表面再構成問題となる。
本稿では,教師の意思決定境界に署名された距離にハードレーベルの監督を置き換える距離ベース複写フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-28T17:00:04Z) - Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model [72.73512218682187]
ReDiff(Refining-enhanced diffusion framework)は、モデルに自身のエラーを特定し、修正するように教えるフレームワークである。
まず、合成エラーを修正するためにモデルをトレーニングすることで、基礎的なリビジョン機能を具現化し、次に、新しいオンライン自己補正ループを実装します。
この誤り駆動学習は、モデルに既存の出力を再検討し、洗練する重要な能力を与え、エラーカスケードを効果的に破壊する。
論文 参考訳(メタデータ) (2025-10-22T06:58:55Z) - Verify Distributed Deep Learning Model Implementation Refinement with Iterative Relation Inference [5.699231128144775]
今日では、分散機械学習のトレーニングと推論が一般的である。なぜなら、今日の大きなモデルは、単一のGPUで提供できる以上のメモリと計算を必要とするからだ。
本稿では,モデル修正をチェックすることによって,このようなバグを静的に識別する手法について述べる。
GraphGuardで実装された我々のアプローチは、反復的な書き換えを使ってモデルの洗練を証明します。
論文 参考訳(メタデータ) (2025-08-13T05:33:25Z) - You Don't Need Pre-built Graphs for RAG: Retrieval Augmented Generation with Adaptive Reasoning Structures [16.867592142212203]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、知識を超えた質問を処理する際に、事実的に誤った文を生成する。
Retrieval-augmented Generation (RAG)は、LLM推論をサポートするために、知識ベースからクエリ関連コンテキストを取得することで、この問題に対処する。
既存のGraphベースのRAGメソッドは、コーパスをグラフに変換するためのコストの高いプロセスに依存しており、圧倒的なトークンコストとアップデートのレイテンシを導入している。
本稿では,推論時に推論構造を動的に抽出し,事前に構築したグラフを使わずに適応検索を誘導するLogicRAGを提案する。
論文 参考訳(メタデータ) (2025-08-08T08:07:40Z) - Unified Scaling Laws for Compressed Representations [69.72517034565467]
各種圧縮表現上でのトレーニングにおいて,統合スケーリングフレームワークがモデル性能を正確に予測できるかどうかを検討する。
我々の主な発見は、単純な「容量」計量が存在するという理論と経験の両方を実証することである。
我々は、圧縮されたフォーマットの精度を直接比較し、スパース量子化されたフォーマットのトレーニングのためのより良いアルゴリズムを導出するために、定式化を拡張した。
論文 参考訳(メタデータ) (2025-06-02T16:52:51Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Reinforcement Learning for Graph Coloring: Understanding the Power and
Limits of Non-Label Invariant Representations [0.0]
本稿では,グラフ着色問題の解法を近似ポリシ最適化モデルで学習できることを示す。
また、グラフの行列表現を取り込み、それを置換することにより、グラフのラベル付けがモデルの性能に重要であることを示す。
論文 参考訳(メタデータ) (2024-01-23T03:43:34Z) - GVdoc: Graph-based Visual Document Classification [17.350393956461783]
グラフに基づく文書分類モデルであるGVdocを提案する。
提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。
パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T19:23:20Z) - Heterogeneous Line Graph Transformer for Math Word Problems [21.4761673982334]
本稿では,オンライン学習システムのための新しい機械学習モデルの設計と実装について述べる。
我々は,自動算術語問題解決システムの実現により,システムの知能レベルを向上することを目指している。
論文 参考訳(メタデータ) (2022-08-11T05:27:05Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Distributed Training of Graph Convolutional Networks using Subgraph
Approximation [72.89940126490715]
本稿では,グラフの複数の分割にまたがる失われる情報をサブグラフ近似スキームで緩和するトレーニング戦略を提案する。
サブグラフ近似アプローチは、分散トレーニングシステムが単一マシン精度で収束するのに役立つ。
論文 参考訳(メタデータ) (2020-12-09T09:23:49Z) - Rethinking Generative Zero-Shot Learning: An Ensemble Learning
Perspective for Recognising Visual Patches [52.67723703088284]
我々はMPGAN(Multi-patch Generative Adversarial Nets)と呼ばれる新しいフレームワークを提案する。
MPGANは、新しい重み付き投票戦略で、ローカルパッチ機能とラベルが見えないクラスを合成する。
MPGANは最先端の手法よりもはるかに精度が高い。
論文 参考訳(メタデータ) (2020-07-27T05:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。