論文の概要: Reinforcement Learning-Based Dynamic Management of Structured Parallel Farm Skeletons on Serverless Platforms
- arxiv url: http://arxiv.org/abs/2602.06555v1
- Date: Fri, 06 Feb 2026 09:57:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.339165
- Title: Reinforcement Learning-Based Dynamic Management of Structured Parallel Farm Skeletons on Serverless Platforms
- Title(参考訳): サーバーレスプラットフォーム上での並列農業骨格の強化学習に基づく動的管理
- Authors: Lanpei Li, Massimo Coppola, Malio Li, Valerio Besozzi, Jack Bell, Vincenzo Lomonaco,
- Abstract要約: 本稿では,サーバレスプラットフォーム上での並列処理構造を動的に管理するためのフレームワークを提案する。
私たちの目標は、スケルトンによるプログラム可能性のメリットを維持しながら、HPCのようなパフォーマンスとレジリエンスをサーバレスおよび継続環境に持ち込むことです。
- 参考スコア(独自算出の注目度): 4.3581792148338065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a framework for dynamic management of structured parallel processing skeletons on serverless platforms. Our goal is to bring HPC-like performance and resilience to serverless and continuum environments while preserving the programmability benefits of skeletons. As a first step, we focus on the well known Farm pattern and its implementation on the open-source OpenFaaS platform, treating autoscaling of the worker pool as a QoS-aware resource management problem. The framework couples a reusable farm template with a Gymnasium-based monitoring and control layer that exposes queue, timing, and QoS metrics to both reactive and learning-based controllers. We investigate the effectiveness of AI-driven dynamic scaling for managing the farm's degree of parallelism via the scalability of serverless functions on OpenFaaS. In particular, we discuss the autoscaling model and its training, and evaluate two reinforcement learning (RL) policies against a baseline of reactive management derived from a simple farm performance model. Our results show that AI-based management can better accommodate platform-specific limitations than purely model-based performance steering, improving QoS while maintaining efficient resource usage and stable scaling behaviour.
- Abstract(参考訳): 本稿では,サーバレスプラットフォーム上での並列処理構造を動的に管理するためのフレームワークを提案する。
私たちの目標は、スケルトンによるプログラム可能性のメリットを維持しながら、HPCのようなパフォーマンスとレジリエンスをサーバレスおよび継続環境に持ち込むことです。
最初のステップとして、よく知られたFarmパターンと、オープンソースのOpenFaaSプラットフォームへの実装に注目し、ワーカプールの自動スケーリングをQoS対応のリソース管理問題として扱います。
このフレームワークは、再利用可能なファームテンプレートと、Gymnasiumベースのモニタリングとコントロールレイヤを結合し、キュー、タイミング、QoSメトリクスをリアクティブと学習ベースのコントローラの両方に公開する。
我々は,OpenFaaS上でのサーバレス関数のスケーラビリティを通じて,農家の並列処理度を管理するためのAI駆動の動的スケーリングの有効性について検討する。
特に,自動スケーリングモデルとその訓練について論じ,簡単な農作業モデルから派生したリアクティブマネジメントのベースラインに対する2つの強化学習(RL)ポリシーを評価する。
その結果、AIベースの管理は、モデルベースのパフォーマンスステアリングよりもプラットフォーム固有の制限に適合し、QoSを改善しつつ、効率的なリソース使用率と安定したスケーリング動作を維持できることがわかった。
関連論文リスト
- Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation [65.3648667980258]
視覚言語モデル(VLM)に基づくGUIエージェントは複雑なタスクの自動化を約束するが、強化学習(RL)の適用において大きな課題に直面している。
異種モジュールを高度に非結合的に協調するGUIエージェントのための非結合エージェントRLトレーニングフレームワークであるDARTを提案する。
OSWorldのベンチマークでは、DART-GUI-7Bは42.13%のタスク成功率、14.61%の絶対ゲイン、オープンソースSOTAよりも7.34%高い。
論文 参考訳(メタデータ) (2025-09-28T13:19:20Z) - Toward Automated Hypervisor Scenario Generation Based on VM Workload Profiling for Resource-Constrained Environments [3.861132936894187]
本稿では,自動車ベンダがハードウェアリソースを効率的に割り当てるのを支援する自動シナリオ生成フレームワークを提案する。
実行時の振る舞いをプロファイリングし、理論モデルとベンダーの両方を統合することにより、システム制約に合わせて最適化された設定を生成する。
論文 参考訳(メタデータ) (2025-08-12T14:06:06Z) - Adaptive Policy Synchronization for Scalable Reinforcement Learning [0.0]
ClusterEnvは、分散環境実行のための軽量インターフェースである。
オンプレミスとオフラインの両方をサポートし、最小限の変更で既存のトレーニングコードに統合され、クラスタ上で効率的に実行される。
論文 参考訳(メタデータ) (2025-07-15T05:07:12Z) - AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training [24.60677187852425]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。
従来のタスクコロケーションのRLフレームワークは、大きなスケーラビリティのボトルネックに悩まされている。
タスク分離RLフレームワークは、複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面します。
本稿では,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。
論文 参考訳(メタデータ) (2025-07-02T12:45:34Z) - Scalable In-Context Q-Learning [68.9917436397079]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文 参考訳(メタデータ) (2025-06-02T04:21:56Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Learning Environment Models with Continuous Stochastic Dynamics [0.0]
本研究では,エージェントの制御下での環境行動のオートマトンモデルを学ぶことによって,エージェントが直面する決定に対する洞察を提供することを目的とする。
本研究では,複雑で連続的な力学を持つ環境のモデルを学習できるように,自動学習の能力を高める。
我々は,LunarLander,CartPole,Mountain Car,Acrobotなど,OpenAI GymのRLベンチマーク環境に自動学習フレームワークを適用した。
論文 参考訳(メタデータ) (2023-06-29T12:47:28Z) - COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training [42.514897110537596]
現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
このようなクラスタを設計してパフォーマンスと利用の両方を最大化します。
本稿では,並列化戦略と鍵クラスタリソースのプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究する,総合的なクラスタ設計方法論とワークフローであるCOMETを紹介する。
論文 参考訳(メタデータ) (2022-11-30T00:32:37Z) - Meta-Reinforcement Learning for Adaptive Control of Second Order Systems [3.131740922192114]
プロセス制御では、多くのシステムは類似しており、よく理解されているダイナミクスを持ち、メタ学習を通じて一般化可能なコントローラを作成することは可能であることを示唆している。
本稿では,メタ強化学習(meta-RL)制御戦略を定式化し,モデル構造などのトレーニングにおいて,既知のオフライン情報を活用する。
重要な設計要素は、トレーニング中にモデルベースの情報をオフラインで利用し、新しい環境と対話するためのモデルフリーのポリシー構造を維持することである。
論文 参考訳(メタデータ) (2022-09-19T18:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。