論文の概要: UNIFERENCE: A Discrete Event Simulation Framework for Developing Distributed AI Models
- arxiv url: http://arxiv.org/abs/2603.26469v1
- Date: Fri, 27 Mar 2026 14:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.54523
- Title: UNIFERENCE: A Discrete Event Simulation Framework for Developing Distributed AI Models
- Title(参考訳): UNIFERENCE: 分散AIモデルを開発するための離散イベントシミュレーションフレームワーク
- Authors: Doğaç Eldenk, Stephen Xia,
- Abstract要約: UNIは、分散AIモデルの開発とベンチマーク、デプロイのための離散イベントシミュレーションフレームワークである。
PyTorch Distributedとシームレスに統合され、シミュレーションから実際のデプロイメントへの移行を可能にする。
- 参考スコア(独自算出の注目度): 0.42015796373418257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing and evaluating distributed inference algorithms remains difficult due to the lack of standardized tools for modeling heterogeneous devices and networks. Existing studies often rely on ad-hoc testbeds or proprietary infrastructure, making results hard to reproduce and limiting exploration of hypothetical hardware or network configurations. We present UNIFERENCE, a discrete-event simulation (DES) framework designed for developing, benchmarking, and deploying distributed AI models within a unified environment. UNIFERENCE models device and network behavior through lightweight logical processes that synchronize only on communication primitives, eliminating rollbacks while preserving the causal order. It integrates seamlessly with PyTorch Distributed, enabling the same codebase to transition from simulation to real deployment. Our evaluation demonstrates that UNIFERENCE profiles runtime with up to 98.6% accuracy compared to real physical deployments across diverse backends and hardware setups. By bridging simulation and deployment, UNIFERENCE provides an accessible, reproducible platform for studying distributed inference algorithms and exploring future system designs, from high-performance clusters to edge-scale devices. The framework is open-sourced at https://github.com/Dogacel/Uniference.
- Abstract(参考訳): 異種デバイスやネットワークをモデリングするための標準化ツールがないため、分散推論アルゴリズムの開発と評価は依然として難しい。
既存の研究は、しばしばアドホックなテストベッドやプロプライエタリなインフラに依存しており、仮説的なハードウェアやネットワークの構成の再現と探索を困難にしている。
UNIFERENCEは、分散AIモデルを統一環境で開発、ベンチマーク、デプロイするために設計された離散イベントシミュレーション(DES)フレームワークである。
UNIFERENCEは、通信プリミティブのみを同期させ、因果順序を維持しながらロールバックを取り除く軽量な論理プロセスを通じて、デバイスとネットワークの動作をモデル化する。
PyTorch Distributedとシームレスに統合され、同じコードベースがシミュレーションから実際のデプロイメントに移行することができる。
評価の結果,UNIFERENCEプロファイルは,さまざまなバックエンドやハードウェアセットアップにまたがる実際の物理的デプロイメントと比較して,最大98.6%の精度で実行可能であることがわかった。
UNIFERENCEは、シミュレーションとデプロイメントをブリッジすることによって、分散推論アルゴリズムを研究し、高性能クラスタからエッジスケールデバイスまで、将来のシステム設計を探索するための、アクセス可能で再現可能なプラットフォームを提供する。
このフレームワークはhttps://github.com/Dogacel/Uniference.comでオープンソース化されている。
関連論文リスト
- AI for Distributed Systems Design: Scalable Cloud Optimization Through Repeated LLMs Sampling And Simulators [3.1594665317979698]
大規模言語モデルからのコード生成と決定論的検証をドメイン固有シミュレータで組み合わせ,AI駆動型分散システムポリシー設計について検討する。
複数のモデル間のスループット改善に関する予備的な結果を報告する。
我々は、AIが新しいシミュレータのブートストラップを支援することで、この方法論のスケールアップに不可欠であると推測する。
論文 参考訳(メタデータ) (2025-10-20T16:10:24Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Failure-Resilient Distributed Inference with Model Compression over Heterogeneous Edge Devices [9.423705897088672]
ヘテロジニアスエッジデバイス上でのディープニューラルネットワークベース推論タスクの局所分散実行のための堅牢な協調推論機構であるRoCoInを提案する。
分散配置のための知識蒸留を用いて、大規模なモデルから学習される、独立的でコンパクトな学生モデルのセットを作成する。
特に、デバイスは戦略的にグループ化され、同じ学生モデルを冗長にデプロイし、実行し、推論プロセスが任意のローカル障害に対して回復力を持つようにします。
論文 参考訳(メタデータ) (2024-06-20T10:43:53Z) - A Unified Cloud-Enabled Discrete Event Parallel and Distributed
Simulation Architecture [0.7949705607963994]
クラウドにシミュレーションをデプロイするのに十分な柔軟性を備えた並列分散M&Sアーキテクチャを提案する。
我々のフレームワークは、離散イベントシステム仕様(DEVS)の形式に基づいている。
並列および分散フレームワークのパフォーマンスは、xDEVS M&Sツールと最大8つの計算ノードを持つDEVStoneベンチマークを用いてテストされる。
論文 参考訳(メタデータ) (2023-02-22T09:47:09Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z) - DistIR: An Intermediate Representation and Simulator for Efficient
Neural Network Distribution [15.086401550425125]
DistIRは分散計算のための表現であり、効率的な解析のために調整されている。
本研究では、DistIRとそのシミュレータが1000以上の構成にまたがる複雑な分散空間を高速にグリッドで探索する方法を示す。
論文 参考訳(メタデータ) (2021-11-09T21:32:51Z) - Device Scheduling and Update Aggregation Policies for Asynchronous
Federated Learning [72.78668894576515]
Federated Learning (FL)は、新しく登場した分散機械学習(ML)フレームワークである。
本稿では,FLシステムにおけるトラグラー問題を排除するために,周期的なアグリゲーションを伴う非同期FLフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-23T18:57:08Z) - Fast-Convergent Federated Learning [82.32029953209542]
フェデレーション学習は、モバイルデバイスの現代的なネットワークを介して機械学習タスクを分散するための、有望なソリューションである。
本稿では,FOLBと呼ばれる高速収束型フェデレーション学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-26T14:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。