論文の概要: Temporally Layered Architecture for Adaptive, Distributed and Continuous
Control
- arxiv url: http://arxiv.org/abs/2301.00723v1
- Date: Sun, 25 Dec 2022 08:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 04:14:57.308938
- Title: Temporally Layered Architecture for Adaptive, Distributed and Continuous
Control
- Title(参考訳): 適応的・分散的・継続的制御のための時間階層アーキテクチャ
- Authors: Devdhar Patel, Joshua Russell, Francesca Walsh, Tauhidur Rahman,
Terrance Sejnowski, Hava Siegelmann
- Abstract要約: 本稿では,時間適応型分散制御システムTLAについて述べる。
TLAは、テンポラリな抽象化を実現するために、高速で遅いコントローラを階層化し、各レイヤが異なる時間スケールに集中できるようにします。
私たちのデザインは生物学的にインスパイアされ、環境の要求に応じて異なる時間スケールで行動を実行する人間の脳のアーキテクチャに基づいています。
- 参考スコア(独自算出の注目度): 2.1700103865910503
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present temporally layered architecture (TLA), a biologically inspired
system for temporally adaptive distributed control. TLA layers a fast and a
slow controller together to achieve temporal abstraction that allows each layer
to focus on a different time-scale. Our design is biologically inspired and
draws on the architecture of the human brain which executes actions at
different timescales depending on the environment's demands. Such distributed
control design is widespread across biological systems because it increases
survivability and accuracy in certain and uncertain environments. We
demonstrate that TLA can provide many advantages over existing approaches,
including persistent exploration, adaptive control, explainable temporal
behavior, compute efficiency and distributed control. We present two different
algorithms for training TLA: (a) Closed-loop control, where the fast controller
is trained over a pre-trained slow controller, allowing better exploration for
the fast controller and closed-loop control where the fast controller decides
whether to "act-or-not" at each timestep; and (b) Partially open loop control,
where the slow controller is trained over a pre-trained fast controller,
allowing for open loop-control where the slow controller picks a temporally
extended action or defers the next n-actions to the fast controller. We
evaluated our method on a suite of continuous control tasks and demonstrate the
advantages of TLA over several strong baselines.
- Abstract(参考訳): 本稿では,時間適応型分散制御システムであるtemporly layered architecture (tla)を提案する。
TLAは、テンポラリな抽象化を実現するために、高速で遅いコントローラを階層化し、各レイヤが異なる時間スケールに集中できるようにする。
私たちのデザインは生物学的にインスパイアされ、環境の要求に応じて異なる時間スケールでアクションを実行する人間の脳のアーキテクチャを描きます。
このような分散制御設計は、特定の不確定な環境での生存性と正確性を高めるため、生体システム全体に広く普及している。
我々は,tlaが,永続的探索,適応制御,説明可能な時間的行動,計算効率,分散制御など,既存のアプローチよりも多くの利点を享受できることを実証する。
TLAを訓練するための2つの異なるアルゴリズムを提案する。
(a)ファストコントローラをトレーニング済みのスローコントローラ上でトレーニングし、ファストコントローラとクローズループ制御をよりよく探索し、各タイムステップでファストコントローラが「アクト」か「ノー」かを判断するクローズループ制御を行う。
(b) 一部開ループ制御(slow controller)は、事前訓練されたfast controller上でslow controllerをトレーニングし、slow controllerが時間的に拡張されたアクションを選択したり、次のnアクションをfast controllerにデファーするopen loop-controlを可能にする。
提案手法を一連の連続制御タスクで評価し,TLAの強塩基性に対する利点を実証した。
関連論文リスト
- CLoSD: Closing the Loop between Simulation and Diffusion for multi-task character control [27.418288450778192]
物理シミュレーションのための運動拡散モデルと強化学習に基づく制御は、人間の運動生成に相補的な強みを持つ。
CLoSDはテキスト駆動のRL物理ベースのコントローラで、様々なタスクの拡散生成によって導かれる。
CLoSDは、目標地点へのナビゲーション、テキストプロンプトで指定された手や足で物体を打つこと、座ること、立ち上がることなど、さまざまなタスクをシームレスに実行することができる。
論文 参考訳(メタデータ) (2024-10-04T13:56:48Z) - Closed-loop Diffusion Control of Complex Physical Systems [10.167080282182972]
物理系制御のための効率的な閉ループ拡散法(CL-DiffPhyCon)を提案する。
CL-DiffPhyConは、異なる物理時間ステップに非同期なdenoisingフレームワークを使用することで、環境からリアルタイムでフィードバックされた制御信号を生成する。
CL-DiffPhyConを1次元バーガースの方程式制御と2次元非圧縮性流体制御の2つのタスクで評価した。
論文 参考訳(メタデータ) (2024-07-31T14:54:29Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control [106.32794844077534]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。
本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文 参考訳(メタデータ) (2024-01-30T10:48:43Z) - Learning to Fly in Seconds [7.259696592534715]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - Deluca -- A Differentiable Control Library: Environments, Methods, and
Benchmarking [52.44199258132215]
我々は、微分可能な物理学とロボティクス環境のオープンソースライブラリを提示する。
ライブラリには,OpenAI Gymの古典的なコントロール設定など,いくつかのポピュラーな環境がある。
ライブラリを使用して得られた新しい科学的結果のいくつかのユースケースを提供します。
論文 参考訳(メタデータ) (2021-02-19T15:06:47Z) - Machine Learning for Mechanical Ventilation Control [52.65490904484772]
圧制御換気における侵襲的機械式換気装置の制御の問題点を考察する。
PIDコントローラは、臨床医が指定する気道圧の軌跡に従って、鎮静患者の肺の空気を入出させる必要があります。
制御器は、PID制御器よりも目標圧力波形をかなりよく追跡できることを示す。
論文 参考訳(メタデータ) (2021-02-12T21:23:33Z) - Regularizing Action Policies for Smooth Control with Reinforcement
Learning [47.312768123967025]
Conditioning for Action Policy Smoothness(CAPS)は、アクションポリシーの効果的な直感的な正規化である。
capsは、ニューラルネットワークコントローラの学習状態-動作マッピングの滑らかさを一貫して改善する。
実システムでテストしたところ、クアドロタードローンのコントローラーの滑らかさが改善され、消費電力は80%近く削減された。
論文 参考訳(メタデータ) (2020-12-11T21:35:24Z) - Learning a Contact-Adaptive Controller for Robust, Efficient Legged
Locomotion [95.1825179206694]
四足歩行ロボットのためのロバストコントローラを合成するフレームワークを提案する。
高レベルコントローラは、環境の変化に応じてプリミティブのセットを選択することを学習する。
確立された制御方法を使用してプリミティブを堅牢に実行する低レベルコントローラ。
論文 参考訳(メタデータ) (2020-09-21T16:49:26Z) - Optimal PID and Antiwindup Control Design as a Reinforcement Learning
Problem [3.131740922192114]
DRL制御法の解釈可能性に着目した。
特に、線形固定構造コントローラをアクター・クリティカル・フレームワークに埋め込まれた浅層ニューラルネットワークとみなす。
論文 参考訳(メタデータ) (2020-05-10T01:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。