論文の概要: Offline Critic-Guided Diffusion Policy for Multi-User Delay-Constrained Scheduling
- arxiv url: http://arxiv.org/abs/2501.12942v1
- Date: Wed, 22 Jan 2025 15:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:30:00.121315
- Title: Offline Critic-Guided Diffusion Policy for Multi-User Delay-Constrained Scheduling
- Title(参考訳): 多ユーザ遅延制約スケジューリングのためのオフライン批判誘導拡散ポリシー
- Authors: Zhuoran Li, Ruishuo Chen, Hai Zhong, Longbo Huang,
- Abstract要約: 本稿では,新しいオフライン強化学習アルゴリズムである underlineScheduling を提案する。
プリコンパイルされたEmphofflineデータから、効率的なスケジューリングポリシを純粋に学習する。
我々は、SOCDは、部分的に観測可能で大規模な環境を含む、様々なシステム力学に耐性があることを示します。
- 参考スコア(独自算出の注目度): 29.431945795881976
- License:
- Abstract: Effective multi-user delay-constrained scheduling is crucial in various real-world applications, such as instant messaging, live streaming, and data center management. In these scenarios, schedulers must make real-time decisions to satisfy both delay and resource constraints without prior knowledge of system dynamics, which are often time-varying and challenging to estimate. Current learning-based methods typically require interactions with actual systems during the training stage, which can be difficult or impractical, as it is capable of significantly degrading system performance and incurring substantial service costs. To address these challenges, we propose a novel offline reinforcement learning-based algorithm, named \underline{S}cheduling By \underline{O}ffline Learning with \underline{C}ritic Guidance and \underline{D}iffusion Generation (SOCD), to learn efficient scheduling policies purely from pre-collected \emph{offline data}. SOCD innovatively employs a diffusion-based policy network, complemented by a sampling-free critic network for policy guidance. By integrating the Lagrangian multiplier optimization into the offline reinforcement learning, SOCD effectively trains high-quality constraint-aware policies exclusively from available datasets, eliminating the need for online interactions with the system. Experimental results demonstrate that SOCD is resilient to various system dynamics, including partially observable and large-scale environments, and delivers superior performance compared to existing methods.
- Abstract(参考訳): リアルタイムメッセージング,ライブストリーミング,データセンタ管理など,さまざまな実世界のアプリケーションにおいて,効率的なマルチユーザ遅延制限スケジューリングが不可欠である。
これらのシナリオでは、スケジューラはシステムダイナミクスの事前知識なしで遅延とリソースの制約の両方を満たすためにリアルタイムな決定をしなければなりません。
現在の学習ベースの手法は、訓練段階の実際のシステムとのインタラクションを必要とするが、システム性能を著しく低下させ、サービスコストを大幅に削減できるため、難しいか実用的でない可能性がある。
これらの課題に対処するため,本研究では,事前コンパイルした \emph{offline data} から効率的なスケジューリングポリシを学習するための,新しいオフライン強化学習アルゴリズムである \underline{S}cheduling By \underline{O}ffline Learning with \underline{C}ritic Guidance and \underline{D}iffusion Generation (SOCD)を提案する。
SOCDは、政策ガイダンスのためのサンプリングフリーの批評家ネットワークによって補完される拡散ベースの政策ネットワークを革新的に採用している。
ラグランジアン乗算器最適化をオフライン強化学習に統合することにより、SOCDは利用可能なデータセットからのみ高品質な制約対応ポリシーを効果的にトレーニングし、システムとのオンラインインタラクションを不要にする。
実験結果から,SOCDは可観測・大規模環境を含む様々なシステムに耐性があり,既存手法と比較して優れた性能を発揮することがわかった。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Differentiable Discrete Event Simulation for Queuing Network Control [7.965453961211742]
キューのネットワーク制御は、高い性、大きな状態とアクション空間、安定性の欠如など、異なる課題を生んでいる。
本稿では,異なる離散イベントシミュレーションに基づくポリシー最適化のためのスケーラブルなフレームワークを提案する。
本手法は,非定常環境で動作するシステムなど,現実的なシナリオを柔軟に処理することができる。
論文 参考訳(メタデータ) (2024-09-05T17:53:54Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - Semantic-aware Transmission Scheduling: a Monotonicity-driven Deep
Reinforcement Learning Approach [39.681075180578986]
6G時代のサイバー物理システムでは、アプリケーションレベルの性能を保証するためにセマンティック通信が必要である。
本稿では,まず,最適なセマンティック・アウェア・スケジューリング・ポリシーの基本的特性について検討する。
そこで我々は,理論ガイドラインを活用することにより,高度な深層強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-23T05:45:22Z) - Dynamic Scheduling for Federated Edge Learning with Streaming Data [56.91063444859008]
我々は,長期的エネルギー制約のある分散エッジデバイスにおいて,トレーニングデータを時間とともにランダムに生成するフェデレーションエッジ学習(FEEL)システムを検討する。
限られた通信リソースとレイテンシ要件のため、各イテレーションでローカルトレーニングプロセスに参加するのはデバイスのサブセットのみである。
論文 参考訳(メタデータ) (2023-05-02T07:41:16Z) - Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent
Reinforcement Learning [28.35473469490186]
マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。
Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient (mathttRSD4$) という深部強化学習アルゴリズムを提案する。
$mathttRSD4$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。
また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的可観測性にも効率よく取り組み、ユーザレベルの分解とノードレベルを導入している。
論文 参考訳(メタデータ) (2022-08-30T08:44:15Z) - Model-Based Offline Planning with Trajectory Pruning [15.841609263723575]
オフライン強化学習(RL)は、環境相互作用のない事前コンパイルデータセットを使用した学習ポリシーを可能にする。
オフライン学習の制約と高性能計画の間のジレンマに取り組む新しい軽量モデルベースのオフライン計画フレームワークであるMOPPを提案します。
実験の結果,MOPPは既存のモデルベースオフラインプランニングやRLアプローチと比較して,競争性能が向上していることがわかった。
論文 参考訳(メタデータ) (2021-05-16T05:00:54Z) - Improving the Accuracy of Early Exits in Multi-Exit Architectures via
Curriculum Learning [88.17413955380262]
マルチエクイットアーキテクチャにより、ディープニューラルネットワークは、正確なコストで厳密な期限に従うために、実行を早期に終了することができる。
カリキュラム学習を活用したマルチエクジットカリキュラム学習という新しい手法を紹介します。
本手法は, 標準訓練手法と比較して, 早期終了の精度を一貫して向上させる。
論文 参考訳(メタデータ) (2021-04-21T11:12:35Z) - Smart Scheduling based on Deep Reinforcement Learning for Cellular
Networks [18.04856086228028]
深部強化学習(DRL)に基づくスマートスケジューリング手法を提案する。
実装フレンドリーな設計、すなわちエージェントのためのスケーラブルなニューラルネットワーク設計と仮想環境トレーニングフレームワークを提供する。
本研究では, DRLベースのスマートスケジューリングが従来のスケジューリング方式を上回り, 実用システムにも適用できることを示した。
論文 参考訳(メタデータ) (2021-03-22T02:09:16Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。