論文の概要: Dual Action Policy for Robust Sim-to-Real Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.12250v1
- Date: Wed, 16 Oct 2024 05:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:43:12.116189
- Title: Dual Action Policy for Robust Sim-to-Real Reinforcement Learning
- Title(参考訳): ロバスト・シム・トゥ・レアル強化学習のためのデュアルアクションポリシー
- Authors: Ng Wen Zheng Terence, Chen Jianda,
- Abstract要約: デュアルアクションポリシー(DAP)は、強化学習のシミュ---リアルギャップに固有の動的ミスマッチに対処する新しいアプローチである。
1つはシミュレーションにおけるタスク報酬の最大化のためのもので、もう1つは報酬調整によるドメイン適応のためのものである。
実験により,DAPが実間ギャップを埋めることの有効性が示され,シミュレーションにおける課題のベースラインを上回り,不確実性推定を取り入れることでさらなる改善が達成された。
- 参考スコア(独自算出の注目度): 3.463779355513079
- License:
- Abstract: This paper presents Dual Action Policy (DAP), a novel approach to address the dynamics mismatch inherent in the sim-to-real gap of reinforcement learning. DAP uses a single policy to predict two sets of actions: one for maximizing task rewards in simulation and another specifically for domain adaptation via reward adjustments. This decoupling makes it easier to maximize the overall reward in the source domain during training. Additionally, DAP incorporates uncertainty-based exploration during training to enhance agent robustness. Experimental results demonstrate DAP's effectiveness in bridging the sim-to-real gap, outperforming baselines on challenging tasks in simulation, and further improvement is achieved by incorporating uncertainty estimation.
- Abstract(参考訳): 本稿では、強化学習のシミュ---リアルギャップに固有の動的ミスマッチに対処する新しいアプローチであるデュアルアクションポリシー(DAP)を提案する。
1つはシミュレーションにおけるタスク報酬の最大化のためのもので、もう1つは報酬調整によるドメイン適応のためのものである。
この分離により、トレーニング中のソースドメイン全体の報酬の最大化が容易になる。
さらに、DAPは、エージェントの堅牢性を高めるために、トレーニング中の不確実性に基づく探索を取り入れている。
実験により,DAPが実間ギャップを埋めることの有効性が示され,シミュレーションにおける課題のベースラインを上回り,不確実性推定を取り入れることでさらなる改善が達成された。
関連論文リスト
- Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Action Pick-up in Dynamic Action Space Reinforcement Learning [6.15205100319133]
我々は,新しいアクションセットからパフォーマンスを高める可能性が最も高い価値あるアクションを自律的に選択するための,インテリジェントなアクションピックアップ(AP)アルゴリズムを提案する。
本稿では,まず,事前の最適政策が有用な知識と経験を提供することで,行動ピックアップにおいて重要な役割を担っていることを理論的に分析し,発見する。
次に、周波数に基づくグローバルメソッドと、事前の最適ポリシーに基づく状態クラスタリングに基づくローカルメソッドの2つの異なるAPメソッドを設計する。
論文 参考訳(メタデータ) (2023-04-03T10:55:16Z) - Exploring Example Influence in Continual Learning [26.85320841575249]
連続学習(CL)は、より良い安定性(S)と塑性(P)を達成することを目的として、人間のような新しいタスクを順次学習する
S と P の影響をトレーニング例で調べるには,SP の改善に向けた学習パターンの改善が期待できる。
本稿では、IFの摂動における2つの重要なステップをシミュレートし、S-およびP-認識の例の影響を得るための、シンプルで効果的なMetaSPアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-25T15:17:37Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Mixed Reinforcement Learning with Additive Stochastic Uncertainty [19.229447330293546]
強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。
本稿では, 環境力学の2つの表現を同時に利用して, 最適ポリシーを探索する混合RLアルゴリズムを提案する。
混合RLの有効性は、非アフィン非線形系の典型的な最適制御問題によって実証される。
論文 参考訳(メタデータ) (2020-02-28T08:02:34Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。