論文の概要: DYNAMIX: RL-based Adaptive Batch Size Optimization in Distributed Machine Learning Systems
- arxiv url: http://arxiv.org/abs/2510.08522v1
- Date: Thu, 09 Oct 2025 17:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.270764
- Title: DYNAMIX: RL-based Adaptive Batch Size Optimization in Distributed Machine Learning Systems
- Title(参考訳): DYNAMIX:分散機械学習システムにおけるRLに基づく適応バッチサイズ最適化
- Authors: Yuanjun Dai, Keqiang He, An Wang,
- Abstract要約: 既存のバッチサイズ選択アプローチは、異質な動的コンピューティング環境に適応できない静的アロケーションや単純化に依存している。
PPO(Proximal Policy Optimiza- tion)を用いてバッチサイズ最適化をシークエント決定問題として定式化する強化学習フレームワークDYNAmixを提案する。
提案手法では,ネットワークレベルのメトリクス,システムレベルのリソース利用,統計的効率指標のトレーニングを含む多次元状態表現を用いて,多様な計算資源をまたいだ情報的意思決定を可能にする。
- 参考スコア(独自算出の注目度): 2.472349172396126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing batch size selection approaches in dis- tributed machine learning rely on static allocation or simplistic heuristics that fail to adapt to heterogeneous, dynamic computing environments. We present DYNAMIX, a reinforcement learning framework that formulates batch size optimization as a sequen- tial decision-making problem using Proximal Policy Optimiza- tion (PPO). Our approach employs a multi-dimensional state representation encompassing network-level metrics, system-level resource utilization, and training statistical efficiency indicators to enable informed decision-making across diverse computational resources. Our approach eliminates the need for explicit system modeling while integrating seamlessly with existing distributed training frameworks. Through evaluations across diverse work- loads, hardware configurations, and network conditions, DY- NAMIX achieves up to 6.3% improvement in the final model accuracy and 46% reduction in the total training time. Our scalability experiments demonstrate that DYNAMIX maintains the best performance as cluster size increases to 32 nodes, while policy transfer experiments show that learned policies generalize effectively across related model architectures.
- Abstract(参考訳): 分散機械学習における既存のバッチサイズ選択アプローチは、異質な動的コンピューティング環境に適応できない静的アロケーションや単純化されたヒューリスティックに依存している。
PPO(Proximal Policy Optimiza- tion)を用いてバッチサイズ最適化をシークエント決定問題として定式化する強化学習フレームワークDYNAMIXを提案する。
提案手法では,ネットワークレベルのメトリクス,システムレベルのリソース利用,統計的効率指標のトレーニングを含む多次元状態表現を用いて,多様な計算資源をまたいだ情報的意思決定を可能にする。
当社のアプローチでは,既存の分散トレーニングフレームワークとシームレスに統合しながら,明示的なシステムモデリングの必要性を排除しています。
DY-NAMIXは様々な作業負荷、ハードウェア構成、ネットワーク条件の評価を通じて、最終モデルの精度を最大6.3%改善し、トレーニング時間を46%短縮する。
DYNAMIXは、クラスタサイズが32ノードに増加するにつれて最高の性能を維持し、ポリシー転送実験は、学習ポリシーが関連するモデルアーキテクチャ全体にわたって効果的に一般化されることを示します。
関連論文リスト
- Resource-Aware Aggregation and Sparsification in Heterogeneous Ensemble Federated Learning [0.9176056742068811]
フェデレートラーニング(FL)は、プライベートクライアントデータによる分散トレーニングを可能にする。
現在のアンサンブルに基づくFL法はモデル予測の多様性を捉えるには不十分である。
多様な計算能力を持つクライアントに適したグローバルアンサンブルベースのFLフレームワークである textbfSHEFL を提案する。
論文 参考訳(メタデータ) (2025-08-12T01:40:46Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - LAPSO: A Unified Optimization View for Learning-Augmented Power System Operations [3.754570687412345]
本稿では,LAPSO(Learning-Augmented Power System Operations)の総合的枠組みを提案する。
LAPSOは運用段階を中心におり、時間的にサイロ化された電力系統のタスクの境界線を断ち切ることを目的としている。
学習可能なコンポーネントで既存のパワーシステム最適化モデルを自動的に拡張するために、専用のPythonパッケージ-lapsoが導入された。
論文 参考訳(メタデータ) (2025-05-08T13:00:24Z) - Adaptive Layer Splitting for Wireless LLM Inference in Edge Computing: A Model-Based Reinforcement Learning Approach [18.153641696306707]
本研究では、モデルベース強化学習(MBRL)からインスピレーションを得て、エッジとユーザ機器(UE)間の最適分割点を決定するフレームワークを提案する。
報酬代理モデルを導入することで、頻繁な性能評価の計算コストを大幅に削減できる。
論文 参考訳(メタデータ) (2024-06-03T09:41:42Z) - Context-Aware Orchestration of Energy-Efficient Gossip Learning Schemes [8.382766344930157]
本稿では,Gossip Learningと学習プロセスの適応最適化を組み合わせた分散学習手法を提案する。
本稿では,ノードごとのリアルタイムな最適化に依存するデータ駆動型OGL管理手法を提案する。
その結果,提案手法は幅広いネットワークシナリオにおいて極めて効率的かつ効果的であることが示唆された。
論文 参考訳(メタデータ) (2024-04-18T09:17:46Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training [42.514897110537596]
現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
このようなクラスタを設計してパフォーマンスと利用の両方を最大化します。
本稿では,並列化戦略と鍵クラスタリソースのプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究する,総合的なクラスタ設計方法論とワークフローであるCOMETを紹介する。
論文 参考訳(メタデータ) (2022-11-30T00:32:37Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。