論文の概要: Delay-Aware Model-Based Reinforcement Learning for Continuous Control
- arxiv url: http://arxiv.org/abs/2005.05440v1
- Date: Mon, 11 May 2020 21:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 19:16:46.802518
- Title: Delay-Aware Model-Based Reinforcement Learning for Continuous Control
- Title(参考訳): 連続制御のための遅延認識モデルに基づく強化学習
- Authors: Baiming Chen, Mengdi Xu, Liang Li, Ding Zhao
- Abstract要約: 行動遅延は、実世界の多くのシステムにおける強化学習の性能を低下させる。
本稿では,遅延対応マルコフ決定過程の形式的定義を提案する。
遅延認識モデルに基づく強化学習フレームワークを開発した。
- 参考スコア(独自算出の注目度): 22.92068095246967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action delays degrade the performance of reinforcement learning in many
real-world systems. This paper proposes a formal definition of delay-aware
Markov Decision Process and proves it can be transformed into standard MDP with
augmented states using the Markov reward process. We develop a delay-aware
model-based reinforcement learning framework that can incorporate the
multi-step delay into the learned system models without learning effort.
Experiments with the Gym and MuJoCo platforms show that the proposed
delay-aware model-based algorithm is more efficient in training and
transferable between systems with various durations of delay compared with
off-policy model-free reinforcement learning methods. Codes available at:
https://github.com/baimingc/dambrl.
- Abstract(参考訳): アクション遅延は、多くの現実世界システムにおける強化学習の性能を低下させる。
本稿では,遅延対応マルコフ決定過程の形式的定義を提案し,マルコフ報酬プロセスを用いて拡張状態を持つ標準mdpに変換できることを実証する。
学習の手間をかけずに学習システムモデルに多段階遅延を組み込むことができる遅延対応モデルに基づく強化学習フレームワークを開発した。
Gym と MuJoCo プラットフォームを用いた実験により,提案した遅延認識型モデルベースアルゴリズムは,非政治モデルフリー強化学習法と比較して,遅延期間の異なるシステム間のトレーニングや転送がより効率的であることが示された。
コードはhttps://github.com/baimingc/dambrl.com/。
関連論文リスト
- Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Delay-Aware Hierarchical Federated Learning [7.292078085289465]
本稿では,分散機械学習(ML)モデルの学習効率を向上させるために,遅延認識型階層型学習(DFL)を提案する。
グローバル同期の間、クラウドサーバは、凸制御アルゴリズムを使用して、ローカルモデルを時代遅れのグローバルモデルと統合する。
数値評価により、DFLの高速グローバルモデル、収束資源の削減、通信遅延に対する評価において優れた性能を示す。
論文 参考訳(メタデータ) (2023-03-22T09:23:29Z) - Scheduling and Aggregation Design for Asynchronous Federated Learning
over Wireless Networks [56.91063444859008]
Federated Learning(FL)は、デバイス上でのトレーニングとサーバベースのアグリゲーションを組み合わせた、協調的な機械学習フレームワークである。
FLシステムにおけるストラグラー問題に対処するために,周期的アグリゲーションを用いた非同期FL設計を提案する。
年齢認識の集約重み付け設計は,非同期FL設定における学習性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-14T17:33:01Z) - Gated Recurrent Neural Networks with Weighted Time-Delay Feedback [59.125047512495456]
重み付き時間遅延フィードバック機構を備えた新しいゲートリカレントユニット(GRU)を導入する。
我々は、$tau$-GRUが、最先端のリカレントユニットやゲート型リカレントアーキテクチャよりも早く収束し、より一般化できることを示します。
論文 参考訳(メタデータ) (2022-12-01T02:26:34Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Unit-Modulus Wireless Federated Learning Via Penalty Alternating
Minimization [64.76619508293966]
Wireless Federated Learning(FL)は、分散データセットから無線通信を介してグローバルパラメトリックモデルをトレーニングする、新興機械学習パラダイムである。
本稿では、ローカルモデルパラメータをアップロードし、無線通信を介してグローバルモデルパラメータを算出する無線FLフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-31T08:19:54Z) - Revisiting State Augmentation methods for Reinforcement Learning with
Stochastic Delays [10.484851004093919]
本稿では,遅延を伴うマルコフ決定過程(MDP)の概念を正式に述べる。
遅延MDPは、コスト構造が大幅に単純化された(遅延なしで)等価な標準MDPに変換可能であることを示す。
この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作や観測の遅延を伴う環境におけるほぼ最適報酬を達成することを示す。
論文 参考訳(メタデータ) (2021-08-17T10:45:55Z) - Continuous-Time Model-Based Reinforcement Learning [4.427447378048202]
本稿では,新しいアクター・クリティック手法に基づく連続時間MBRLフレームワークを提案する。
我々は、連続時間制御システムを明確に解決する新しいODE-RLスイート上で、本手法を実装し、テストする。
論文 参考訳(メタデータ) (2021-02-09T11:30:19Z) - Fast-Convergent Federated Learning [82.32029953209542]
フェデレーション学習は、モバイルデバイスの現代的なネットワークを介して機械学習タスクを分散するための、有望なソリューションである。
本稿では,FOLBと呼ばれる高速収束型フェデレーション学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-26T14:37:51Z) - Delay-Aware Multi-Agent Reinforcement Learning for Cooperative and
Competitive Environments [23.301322095357808]
アクションと観察の遅延は、現実世界のサイバー物理システムに多く存在する。
本稿では,遅延に対処する新しいフレームワークと,マルチエージェントタスクの非定常トレーニング問題を提案する。
実験は, 協調コミュニケーション, 協調ナビゲーション, 競争実験を含む多エージェント粒子環境下で実施される。
論文 参考訳(メタデータ) (2020-05-11T21:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。