論文の概要: Collaborative Policy Learning for Dynamic Scheduling Tasks in
Cloud-Edge-Terminal IoT Networks Using Federated Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.00541v1
- Date: Sun, 2 Jul 2023 11:09:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 15:25:59.087876
- Title: Collaborative Policy Learning for Dynamic Scheduling Tasks in
Cloud-Edge-Terminal IoT Networks Using Federated Reinforcement Learning
- Title(参考訳): フェデレーション強化学習を用いたクラウドエッジ端末IoTネットワークにおける動的スケジューリングタスクの協調的ポリシー学習
- Authors: Do-Yup Kim, Da-Eun Lee, Ji-Wan Kim, Hyun-Suk Lee
- Abstract要約: 動的スケジューリングタスクのための新しい協調型ポリシー学習フレームワークを提案する。
本フレームワークは,各ラウンドにおける協調学習のタスクを適応的に選択し,タスク間の公平さを考慮に入れた。
- 参考スコア(独自算出の注目度): 8.359770027722275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we examine cloud-edge-terminal IoT networks, where edges
undertake a range of typical dynamic scheduling tasks. In these IoT networks, a
central policy for each task can be constructed at a cloud server. The central
policy can be then used by the edges conducting the task, thereby mitigating
the need for them to learn their own policy from scratch. Furthermore, this
central policy can be collaboratively learned at the cloud server by
aggregating local experiences from the edges, thanks to the hierarchical
architecture of the IoT networks. To this end, we propose a novel collaborative
policy learning framework for dynamic scheduling tasks using federated
reinforcement learning. For effective learning, our framework adaptively
selects the tasks for collaborative learning in each round, taking into account
the need for fairness among tasks. In addition, as a key enabler of the
framework, we propose an edge-agnostic policy structure that enables the
aggregation of local policies from different edges. We then provide the
convergence analysis of the framework. Through simulations, we demonstrate that
our proposed framework significantly outperforms the approaches without
collaborative policy learning. Notably, it accelerates the learning speed of
the policies and allows newly arrived edges to adapt to their tasks more
easily.
- Abstract(参考訳): 本稿では,エッジが様々な動的スケジューリングタスクを実行するクラウドエッジ端末型IoTネットワークについて検討する。
これらのIoTネットワークでは、各タスクの中央ポリシーをクラウドサーバで構築することができる。
中央ポリシーは、タスクを実行するエッジによって使用することができるため、彼ら自身のポリシをゼロから学ぶ必要が軽減される。
さらに、この中心的なポリシは、IoTネットワークの階層的なアーキテクチャのおかげで、エッジからローカルエクスペリエンスを集約することで、クラウドサーバで共同で学習することができる。
そこで本研究では,協調強化学習を用いた動的スケジューリングタスクのための新しい協調ポリシー学習フレームワークを提案する。
効果的な学習のために,本フレームワークは各ラウンドで協調学習を行うタスクを適応的に選択し,タスク間の公平さを考慮に入れた。
また,フレームワークの重要な実現要因として,異なるエッジからのローカルポリシの集約を可能にするエッジに依存しないポリシ構造を提案する。
次に、フレームワークの収束分析を提供する。
シミュレーションにより,提案手法が協調的な政策学習を行なわずに,アプローチを著しく上回ることを示す。
特に、ポリシーの学習速度を加速し、新しく到着したエッジがより簡単にタスクに適応できるようにする。
関連論文リスト
- Structured Reinforcement Learning for Media Streaming at the Wireless Edge [15.742424623905825]
メディアストリーミングは、無線エッジ(アクセス)ネットワーク上の支配的なアプリケーションである。
ビデオストリーミング環境において,最適な意思決定のための学習ベースのポリシーを開発し,実証する。
論文 参考訳(メタデータ) (2024-04-10T19:25:51Z) - What Planning Problems Can A Relational Neural Network Solve? [91.53684831950612]
本稿では,計画問題のポリシーを表すリレーショナルニューラルネットワークの回路複雑性解析について述べる。
回路幅と深さの増大に関して,計画問題には3つの一般的なクラスが存在することを示す。
また、政策学習のためのニューラルネットワーク設計におけるこの分析の有用性についても解説する。
論文 参考訳(メタデータ) (2023-12-06T18:47:28Z) - Anomaly Detection for Scalable Task Grouping in Reinforcement
Learning-based RAN Optimization [13.055378785343335]
多数の細胞にまたがってうまく機能する学習モデルの訓練と維持は、関連する問題となっている。
本稿では,多数のセルサイトにわたるRAN最適化を実現するための拡張学習政策バンクを構築するためのスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:05:17Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Policy Architectures for Compositional Generalization in Control [71.61675703776628]
本稿では,タスクにおけるエンティティベースの構成構造をモデル化するためのフレームワークを提案する。
私たちのポリシーは柔軟で、アクションプリミティブを必要とせずにエンドツーエンドでトレーニングできます。
論文 参考訳(メタデータ) (2022-03-10T06:44:24Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Towards Exploiting Geometry and Time for FastOff-Distribution Adaptation
in Multi-Task RobotLearning [17.903462188570067]
トレーニング済みタスクのベースセットに対するポリシーをトレーニングし、次に、新しいオフディストリビューションタスクに適応する実験を行います。
低複雑さのターゲットポリシークラス、ブラックボックス前の基本ポリシー、および単純な最適化アルゴリズムを組み合わせることで、ベースタスクの配布外の新しいタスクを取得できることがわかりました。
論文 参考訳(メタデータ) (2021-06-24T02:13:50Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z) - Real-Time Edge Intelligence in the Making: A Collaborative Learning
Framework via Federated Meta-Learning [24.00507627945666]
ネットワークエッジにおけるIoTアプリケーションは、インテリジェントな判断をリアルタイムで要求する。
本稿では,まず,一組のソースノードでモデルを学習するプラットフォーム支援協調学習フレームワークを提案する。
次に、いくつかのサンプルのみを使用して、ターゲットエッジノードで新しいタスクを学ぶようにモデルを適応させる。
論文 参考訳(メタデータ) (2020-01-09T21:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。