論文の概要: Select before Act: Spatially Decoupled Action Repetition for Continuous Control
- arxiv url: http://arxiv.org/abs/2502.06919v1
- Date: Mon, 10 Feb 2025 16:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:08:38.001148
- Title: Select before Act: Spatially Decoupled Action Repetition for Continuous Control
- Title(参考訳): Select before Act: 連続制御のための空間的に分離されたアクション反復
- Authors: Buqing Nie, Yangqing Fu, Yue Gao,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、ロボット操作や移動など、様々な連続的な制御タスクにおいて顕著な成功を収めている。
近年の研究では、RLにアクション繰り返しを組み込んで、サンプル効率の向上と性能の向上を図りつつ、アクション持続性の向上を実現している。
既存の方法は、繰り返しの間、すべてのアクション次元を全体として扱い、それらの違いを無視します。
本稿では,各アクション次元に対してクローズドループ・アク・オート・リピート・セレクションを個別に実装したSDARという新しい繰り返しフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.39061976254379
- License:
- Abstract: Reinforcement Learning (RL) has achieved remarkable success in various continuous control tasks, such as robot manipulation and locomotion. Different to mainstream RL which makes decisions at individual steps, recent studies have incorporated action repetition into RL, achieving enhanced action persistence with improved sample efficiency and superior performance. However, existing methods treat all action dimensions as a whole during repetition, ignoring variations among them. This constraint leads to inflexibility in decisions, which reduces policy agility with inferior effectiveness. In this work, we propose a novel repetition framework called SDAR, which implements Spatially Decoupled Action Repetition through performing closed-loop act-or-repeat selection for each action dimension individually. SDAR achieves more flexible repetition strategies, leading to an improved balance between action persistence and diversity. Compared to existing repetition frameworks, SDAR is more sample efficient with higher policy performance and reduced action fluctuation. Experiments are conducted on various continuous control scenarios, demonstrating the effectiveness of spatially decoupled repetition design proposed in this work.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、ロボット操作や移動など、様々な連続的な制御タスクにおいて顕著な成功を収めている。
個々のステップで決定を行うメインストリームのRLとは異なり、最近の研究では、RLにアクション繰り返しを組み込んで、サンプル効率の向上と性能の向上を図っている。
しかし、既存の手法では、すべてのアクション次元を反復中に全体として扱い、それらの違いを無視している。
この制約は意思決定の柔軟性を損なうため、政策のアジリティが低下し、効果が劣る。
本研究では,各行動次元に対してクローズドループ・アク・アンド・リピート・セレクションを個別に行うことにより,空間的に疎結合な行動繰り返しを実現するSDARという新しい繰り返しフレームワークを提案する。
SDARはより柔軟な反復戦略を実現し、アクション永続性と多様性のバランスが改善される。
既存の繰り返しフレームワークと比較して、SDARはよりサンプリング効率が高く、ポリシー性能が向上し、アクションの変動が減少する。
本研究で提案した空間分離繰り返し設計の有効性を実証し, 各種連続制御シナリオの実験を行った。
関連論文リスト
- Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - State-Novelty Guided Action Persistence in Deep Reinforcement Learning [7.05832012052375]
状態空間の現在の探索状況に基づいて動的に動作の持続性を調整する新しい手法を提案する。
本手法は, 時間的持続性を組み込むため, 様々な基礎探査手法にシームレスに統合できる。
論文 参考訳(メタデータ) (2024-09-09T08:34:22Z) - Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Reinforcement Learning With Sparse-Executing Actions via Sparsity Regularization [15.945378631406024]
強化学習(RL)は、具体的制御、自律運転、金融取引といった意思決定タスクにおいて、素晴らしいパフォーマンスを示している。
多くの意思決定タスクでは、エージェントは限られた予算の下でアクションを実行するという問題に遭遇する。
本稿では,行動空間における特定の行動が限られた時間しか実行できないスパース行動マルコフ決定プロセス(SA-MDP)としてこの問題を定式化する。
本稿では,ポリシー最適化アルゴリズムであるAction Sparsity Regularization (ASRE)を提案する。
論文 参考訳(メタデータ) (2021-05-18T16:50:42Z) - Utilizing Skipped Frames in Action Repeats via Pseudo-Actions [13.985534521589253]
多くの深層強化学習では、エージェントがアクションを取ると、次のアクション決定点まで状態を観察しずに、事前定義された回数で同じアクションを繰り返します。
訓練データの量は、反復する行動の間隔に逆比例するので、トレーニングのサンプル効率に悪影響を及ぼす可能性がある。
疑似アクションの概念を導入してこの問題を緩和する,シンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-07T02:43:44Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。