論文の概要: Multi-Agent Reinforcement Learning for Adaptive Resource Orchestration in Cloud-Native Clusters
- arxiv url: http://arxiv.org/abs/2508.10253v1
- Date: Thu, 14 Aug 2025 00:43:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.143722
- Title: Multi-Agent Reinforcement Learning for Adaptive Resource Orchestration in Cloud-Native Clusters
- Title(参考訳): クラウドネイティブクラスタにおける適応的資源オーケストレーションのためのマルチエージェント強化学習
- Authors: Guanzi Yao, Heyao Liu, Linyan Dai,
- Abstract要約: 本稿では,クラウドネイティブデータベースシステムにおける高資源ダイナミズムとスケジューリング複雑性の課題に対処する。
マルチエージェント強化学習に基づく適応的資源オーケストレーション手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenges of high resource dynamism and scheduling complexity in cloud-native database systems. It proposes an adaptive resource orchestration method based on multi-agent reinforcement learning. The method introduces a heterogeneous role-based agent modeling mechanism. This allows different resource entities, such as compute nodes, storage nodes, and schedulers, to adopt distinct policy representations. These agents are better able to reflect diverse functional responsibilities and local environmental characteristics within the system. A reward-shaping mechanism is designed to integrate local observations with global feedback. This helps mitigate policy learning bias caused by incomplete state observations. By combining real-time local performance signals with global system value estimation, the mechanism improves coordination among agents and enhances policy convergence stability. A unified multi-agent training framework is developed and evaluated on a representative production scheduling dataset. Experimental results show that the proposed method outperforms traditional approaches across multiple key metrics. These include resource utilization, scheduling latency, policy convergence speed, system stability, and fairness. The results demonstrate strong generalization and practical utility. Across various experimental scenarios, the method proves effective in handling orchestration tasks with high concurrency, high-dimensional state spaces, and complex dependency relationships. This confirms its advantages in real-world, large-scale scheduling environments.
- Abstract(参考訳): 本稿では,クラウドネイティブデータベースシステムにおける高資源ダイナミズムとスケジューリング複雑性の課題に対処する。
マルチエージェント強化学習に基づく適応的資源オーケストレーション手法を提案する。
異種ロールベースのエージェントモデリング機構を導入する。
これにより、計算ノード、ストレージノード、スケジューラなどの異なるリソースエンティティが、異なるポリシー表現を採用することができる。
これらのエージェントは、システム内の多様な機能的責任と局所的な環境特性を反映することができる。
報酬形成機構は、局所的な観測とグローバルなフィードバックを統合するように設計されている。
これは、不完全な状態観察によって引き起こされる政策学習バイアスを軽減するのに役立つ。
実時間局所性能信号とグローバルシステム値推定を組み合わせることにより、エージェント間の調整を改善し、ポリシー収束安定性を向上させる。
代表的な生産スケジュールデータセットに基づいて,統合マルチエージェントトレーニングフレームワークを開発し,評価する。
実験結果から,提案手法は複数の指標において従来の手法よりも優れていることがわかった。
これには、リソース利用、スケジューリングレイテンシ、ポリシー収束速度、システムの安定性、公正性が含まれる。
結果は強力な一般化と実用性を示している。
様々な実験シナリオにおいて、この手法は高並行性、高次元状態空間、複雑な依存関係関係によるオーケストレーションタスクの処理に有効であることを示す。
これは、実世界の大規模スケジューリング環境において、その利点を裏付けるものである。
関連論文リスト
- Federated Anomaly Detection for Multi-Tenant Cloud Platforms with Personalized Modeling [6.028943403943345]
本稿では,マルチテナントクラウド環境における重要な課題に対処するために,フェデレーション学習に基づく異常検出手法を提案する。
グローバルモデルは最適化されており、データのプライバシを保持しながら、テナント間の協調的異常検出を可能にする。
実験では、クラウドプラットフォームからの実際のテレメトリデータを使用して、シミュレーションされたマルチテナント環境を構築する。
論文 参考訳(メタデータ) (2025-08-14T00:46:24Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Intelligent Task Scheduling for Microservices via A3C-Based Reinforcement Learning [4.422684054800804]
本稿では,A3C強化学習アルゴリズムに基づく適応的な資源スケジューリング手法を提案する。
この手法には非同期なマルチスレッド学習機構が組み込まれており、複数のエージェントが並列サンプリングを行い、グローバルネットワークパラメータの更新を同期させることができる。
提案手法はマルチタスク・コンカレント環境において高いスケジューリング性能とシステム安定性を実現する。
論文 参考訳(メタデータ) (2025-05-01T04:42:48Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Deep Reinforcement Learning for Distributed and Uncoordinated Cognitive
Radios Resource Allocation [1.218340575383456]
本稿では,認知無線ネットワークが提示するマルチエージェント環境のための,深層強化学習に基づく資源配分手法を提案する。
提案したアルゴリズムは、非定常環境における平衡ポリシーに任意に長い時間で収束する。
標準の単エージェント深部強化学習手法を用いることで,非協調的対話型マルチラジオシナリオで使用する場合,収束が得られない可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-27T12:43:30Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。