論文の概要: Temporally Layered Architecture for Efficient Continuous Control
- arxiv url: http://arxiv.org/abs/2305.18701v1
- Date: Tue, 30 May 2023 02:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 18:36:54.724358
- Title: Temporally Layered Architecture for Efficient Continuous Control
- Title(参考訳): 効率的な継続的制御のための時間階層アーキテクチャ
- Authors: Devdhar Patel, Terrence Sejnowski, Hava Siegelmann
- Abstract要約: エネルギー消費を最小限に抑えた時間適応制御のための時間階層アーキテクチャ(TLA)を提案する。
我々の設計は、環境の要求に応じて異なる時間スケールで行動を実行する人間の脳の省エネ機構に依拠している。
- 参考スコア(独自算出の注目度): 1.933681537640272
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a temporally layered architecture (TLA) for temporally adaptive
control with minimal energy expenditure. The TLA layers a fast and a slow
policy together to achieve temporal abstraction that allows each layer to focus
on a different time scale. Our design draws on the energy-saving mechanism of
the human brain, which executes actions at different timescales depending on
the environment's demands. We demonstrate that beyond energy saving, TLA
provides many additional advantages, including persistent exploration, fewer
required decisions, reduced jerk, and increased action repetition. We evaluate
our method on a suite of continuous control tasks and demonstrate the
significant advantages of TLA over existing methods when measured over multiple
important metrics. We also introduce a multi-objective score to qualitatively
assess continuous control policies and demonstrate a significantly better score
for TLA. Our training algorithm uses minimal communication between the slow and
fast layers to train both policies simultaneously, making it viable for future
applications in distributed control.
- Abstract(参考訳): エネルギー消費を最小限に抑えた時間適応制御のための時間階層アーキテクチャ(TLA)を提案する。
TLAは、各レイヤが異なる時間スケールに集中できるように、時間的抽象化を達成するために、高速で遅いポリシーを一緒に重ねます。
我々の設計は、環境の要求に応じて異なる時間スケールで行動を実行する人間の脳の省エネ機構に依拠している。
我々は、省エネ以外にも、TLAは永続的な探索、必要な決定の少ない、不要な削減、行動反復の増加など、多くの利点を提供していることを実証した。
提案手法を一連の連続制御タスクで評価し,複数の重要な指標で測定した場合の既存手法に対するTLAの顕著な優位性を実証した。
また、連続制御ポリシーを定性的に評価する多目的スコアを導入し、TLAに対して極めて優れたスコアを示す。
私たちのトレーニングアルゴリズムは、遅い層と速い層の間の最小限の通信を利用して、両方のポリシーを同時にトレーニングします。
関連論文リスト
- Reinforcement Learning for Adaptive Resource Scheduling in Complex System Environments [8.315191578007857]
そこで本研究では,Q-ラーニングに基づく新しいコンピュータシステムの性能最適化と適応型ワークロード管理スケジューリングアルゴリズムを提案する。
対照的に、強化学習アルゴリズムであるQラーニングは、システムの状態変化から継続的に学習し、動的スケジューリングとリソース最適化を可能にする。
この研究は、将来の大規模システムにおけるAI駆動適応スケジューリングの統合の基礎を提供し、システムのパフォーマンスを高め、運用コストを削減し、持続可能なエネルギー消費をサポートするスケーラブルでインテリジェントなソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-08T05:58:09Z) - Reinforcement Learning for Intensity Control: An Application to Choice-Based Network Revenue Management [8.08366903467967]
我々は、選択に基づくネットワーク収益管理を用いた強化学習フレームワークを強化制御に適用する。
ジャンプポイントによって生成されたサンプルパスの固有な離散化を利用することで、事前に時間的地平線を識別する必要がないことを示す。
論文 参考訳(メタデータ) (2024-06-08T05:27:01Z) - Energy-Efficient Federated Edge Learning with Streaming Data: A Lyapunov Optimization Approach [34.00679567444125]
本研究では,長期エネルギー制約下でのデータ到着や資源の可利用性に固有のランダム性に対処する動的スケジューリングと資源割当アルゴリズムを開発した。
提案アルゴリズムは, デバイススケジューリング, 計算容量調整, 帯域幅の割り当ておよび各ラウンドの送信電力を適応的に決定する。
本手法の有効性をシミュレーションにより検証し,ベースライン方式と比較して学習性能とエネルギー効率が向上したことを示す。
論文 参考訳(メタデータ) (2024-05-20T14:13:22Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Computation-efficient Deep Learning for Computer Vision: A Survey [121.84121397440337]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。
ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。
新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文 参考訳(メタデータ) (2023-08-27T03:55:28Z) - A Comparative Study of Machine Learning Algorithms for Anomaly Detection
in Industrial Environments: Performance and Environmental Impact [62.997667081978825]
本研究は,環境の持続可能性を考慮した高性能機械学習モデルの要求に応えることを目的としている。
Decision TreesやRandom Forestsといった従来の機械学習アルゴリズムは、堅牢な効率性とパフォーマンスを示している。
しかし, 資源消費の累積増加にもかかわらず, 最適化された構成で優れた結果が得られた。
論文 参考訳(メタデータ) (2023-07-01T15:18:00Z) - Sustainable AIGC Workload Scheduling of Geo-Distributed Data Centers: A
Multi-Agent Reinforcement Learning Approach [48.18355658448509]
生成的人工知能の最近の進歩は、機械学習トレーニングの需要が急増し、エネルギー消費の大幅な増加によるコスト負担と環境問題を引き起こしている。
地理的に分散したクラウドデータセンタ間でのトレーニングジョブのスケジューリングは、安価で低炭素エネルギーのコンピューティング能力の使用を最適化する機会を浮き彫りにする。
本研究では,実生活におけるワークロードパターン,エネルギー価格,炭素強度を組み込んだクラウドシステムと対話することで,マルチエージェント強化学習とアクタクリティカルな手法に基づく最適協調スケジューリング戦略の学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-17T02:12:30Z) - Coverage and Capacity Optimization in STAR-RISs Assisted Networks: A
Machine Learning Approach [102.00221938474344]
再構成可能なインテリジェントサーフェス (STAR-RIS) アシストネットワークを同時に送信および反射するカバレッジとキャパシティ最適化のための新しいモデルを提案する。
損失関数ベースの更新戦略はコアポイントであり、各更新時にmin-normソルバによってカバレッジとキャパシティの両方の損失関数の重みを計算することができる。
解析結果から,提案手法は固定重みに基づくMOアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-04-13T13:52:22Z) - Reinforcement Learning-Based Coverage Path Planning with Implicit
Cellular Decomposition [5.2424255020469595]
本稿では,カバレッジ問題を体系的に解析し,最適な停止時間問題として定式化する。
本研究では,強化学習に基づくアルゴリズムが,未知の屋内環境を効果的にカバーしていることを示す。
論文 参考訳(メタデータ) (2021-10-18T05:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。