論文の概要: A Trust Region Approach for Few-Shot Sim-to-Real Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.15474v1
- Date: Sun, 24 Dec 2023 13:09:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:48:56.660847
- Title: A Trust Region Approach for Few-Shot Sim-to-Real Reinforcement Learning
- Title(参考訳): Few-Shot Sim-to-Real Reinforcement Learningのための信頼領域アプローチ
- Authors: Paul Daoudi, Christophe Prieur, Bogdan Robu, Merwan Barlier, Ludovic
Dos Santos
- Abstract要約: Imitation-to-Reality Reinforcement Learning (Sim-to-Real RL)は、シミュレーションを用いて、広範囲な現実世界の相互作用の必要性を最小化しようとしている。
本研究では,シミュレータ学習政策によって引き起こされる軌道を制約するペナルティを取り入れた新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 3.3811247908085855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simulation-to-Reality Reinforcement Learning (Sim-to-Real RL) seeks to use
simulations to minimize the need for extensive real-world interactions.
Specifically, in the few-shot off-dynamics setting, the goal is to acquire a
simulator-based policy despite a dynamics mismatch that can be effectively
transferred to the real-world using only a handful of real-world transitions.
In this context, conventional RL agents tend to exploit simulation inaccuracies
resulting in policies that excel in the simulator but underperform in the real
environment. To address this challenge, we introduce a novel approach that
incorporates a penalty to constrain the trajectories induced by the
simulator-trained policy inspired by recent advances in Imitation Learning and
Trust Region based RL algorithms. We evaluate our method across various
environments representing diverse Sim-to-Real conditions, where access to the
real environment is extremely limited. These experiments include
high-dimensional systems relevant to real-world applications. Across most
tested scenarios, our proposed method demonstrates performance improvements
compared to existing baselines.
- Abstract(参考訳): simulation-to-reality reinforcement learning (sim-to-real rl) は、現実世界の広範な相互作用を最小化するためにシミュレーションを使用する。
具体的には、数回のオフダイナミックス設定では、ほんの数回の実世界の遷移だけで実世界へ効果的に転送できるダイナミクスミスマッチにもかかわらず、シミュレータベースのポリシーを取得することが目標だ。
この文脈では、従来のRLエージェントはシミュレーションの不正確さを利用する傾向があるため、シミュレータでは優れているが実際の環境では性能が劣る。
この課題に対処するために,Imitation LearningとTrust RegionベースのRLアルゴリズムの最近の進歩に触発されたシミュレータ学習政策によって引き起こされる軌道を制約するペナルティを取り入れた新しいアプローチを導入する。
実環境へのアクセスが極めて制限された多様なシム・トゥ・リアル条件を示す様々な環境を対象に,本手法の評価を行った。
これらの実験には現実世界の応用に関連する高次元システムが含まれる。
多くのテストシナリオにおいて,提案手法は既存のベースラインと比較して性能改善を示す。
関連論文リスト
- Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。
ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文 参考訳(メタデータ) (2024-10-22T09:29:53Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization [29.61829620717385]
動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。
DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。
DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
論文 参考訳(メタデータ) (2022-09-01T10:26:58Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。
本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。
本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文 参考訳(メタデータ) (2022-02-11T18:08:02Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Provably Efficient Model-based Policy Adaptation [22.752774605277555]
有望なアプローチは、事前訓練されたポリシーを新しい環境に迅速に適応させることである。
この政策適応問題の既存の方法は、通常ドメインのランダム化とメタラーニングに依存している。
未確認のターゲット環境でのオンライン適応を可能にする新しいモデルベースメカニズムを提案する。
論文 参考訳(メタデータ) (2020-06-14T23:16:20Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。