論文の概要: Temporally Layered Architecture for Efficient Continuous Control
- arxiv url: http://arxiv.org/abs/2305.18701v2
- Date: Wed, 9 Aug 2023 02:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 17:18:29.626280
- Title: Temporally Layered Architecture for Efficient Continuous Control
- Title(参考訳): 効率的な継続的制御のための時間階層アーキテクチャ
- Authors: Devdhar Patel, Terrence Sejnowski, Hava Siegelmann
- Abstract要約: エネルギー消費を最小限に抑えた時間適応制御のための時間階層アーキテクチャ(TLA)を提案する。
我々の設計は、環境の要求に応じて異なる時間スケールで行動を実行する人間の脳の省エネ機構に依拠している。
- 参考スコア(独自算出の注目度): 1.933681537640272
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a temporally layered architecture (TLA) for temporally adaptive
control with minimal energy expenditure. The TLA layers a fast and a slow
policy together to achieve temporal abstraction that allows each layer to focus
on a different time scale. Our design draws on the energy-saving mechanism of
the human brain, which executes actions at different timescales depending on
the environment's demands. We demonstrate that beyond energy saving, TLA
provides many additional advantages, including persistent exploration, fewer
required decisions, reduced jerk, and increased action repetition. We evaluate
our method on a suite of continuous control tasks and demonstrate the
significant advantages of TLA over existing methods when measured over multiple
important metrics. We also introduce a multi-objective score to qualitatively
assess continuous control policies and demonstrate a significantly better score
for TLA. Our training algorithm uses minimal communication between the slow and
fast layers to train both policies simultaneously, making it viable for future
applications in distributed control.
- Abstract(参考訳): エネルギー消費を最小限に抑えた時間適応制御のための時間階層アーキテクチャ(TLA)を提案する。
TLAは、各レイヤが異なる時間スケールに集中できるように、時間的抽象化を達成するために、高速で遅いポリシーを一緒に重ねます。
我々の設計は、環境の要求に応じて異なる時間スケールで行動を実行する人間の脳の省エネ機構に依拠している。
我々は、省エネ以外にも、TLAは永続的な探索、必要な決定の少ない、不要な削減、行動反復の増加など、多くの利点を提供していることを実証した。
提案手法を一連の連続制御タスクで評価し,複数の重要な指標で測定した場合の既存手法に対するTLAの顕著な優位性を実証した。
また、連続制御ポリシーを定性的に評価する多目的スコアを導入し、TLAに対して極めて優れたスコアを示す。
私たちのトレーニングアルゴリズムは、遅い層と速い層の間の最小限の通信を利用して、両方のポリシーを同時にトレーニングします。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Non-Stationary Policy Learning for Multi-Timescale Multi-Agent
Reinforcement Learning [9.808555135836022]
マルチタイムスケールのマルチエージェント強化学習では、エージェントは異なる時間スケールで相互作用する。
マルチスケールMARLのための非定常ポリシーを学習するための簡単なフレームワークを提案する。
グリッドワールドとエネルギー管理環境の構築において,マルチタイム・ポリシーを効果的に学習するフレームワークの能力を検証する。
論文 参考訳(メタデータ) (2023-07-17T19:25:46Z) - Long-term Wind Power Forecasting with Hierarchical Spatial-Temporal
Transformer [112.12271800369741]
風力発電は、再生可能、汚染のないその他の利点により、世界中の注目を集めている。
正確な風力発電予測(WPF)は、電力系統の運用における電力変動を効果的に低減することができる。
既存の手法は主に短期的な予測のために設計されており、効果的な時空間的特徴増強が欠如している。
論文 参考訳(メタデータ) (2023-05-30T04:03:15Z) - Chain-of-Thought Predictive Control [27.115967506563603]
我々は、複雑な低レベル制御タスクの実証から、一般化可能なポリシー学習について研究する。
本稿では,時間的抽象化の概念と階層的RLからの計画能力を取り入れた模倣学習手法を提案する。
提案手法であるChain-of-Thought Predictive Control (CoTPC) は,スケーラブルかつ高度に最適化されたデモから,低レベルの操作タスクに挑戦する上で,既存のものよりも優れています。
論文 参考訳(メタデータ) (2023-04-03T07:59:13Z) - Temporally Layered Architecture for Adaptive, Distributed and Continuous
Control [2.1700103865910503]
本稿では,時間適応型分散制御システムTLAについて述べる。
TLAは、テンポラリな抽象化を実現するために、高速で遅いコントローラを階層化し、各レイヤが異なる時間スケールに集中できるようにします。
私たちのデザインは生物学的にインスパイアされ、環境の要求に応じて異なる時間スケールで行動を実行する人間の脳のアーキテクチャに基づいています。
論文 参考訳(メタデータ) (2022-12-25T08:46:22Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Accelerated Reinforcement Learning for Temporal Logic Control Objectives [10.216293366496688]
本稿では,未知マルコフ決定過程(MDP)をモデル化した移動ロボットの学習制御ポリシーの問題に対処する。
本稿では,制御ポリシを関連手法よりもはるかに高速に学習可能な制御対象に対するモデルベース強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T17:09:51Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Enforcing Policy Feasibility Constraints through Differentiable
Projection for Energy Optimization [57.88118988775461]
本稿では,ニューラルポリシー内での凸操作制約を強制するために,PROF(Projected Feasibility)を提案する。
エネルギー効率の高い建築操作とインバータ制御の2つの応用についてPROFを実証する。
論文 参考訳(メタデータ) (2021-05-19T01:58:10Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。