論文の概要: Maximum Entropy Behavior Exploration for Sim2Real Zero-Shot Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.25464v1
- Date: Thu, 26 Mar 2026 14:07:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.322062
- Title: Maximum Entropy Behavior Exploration for Sim2Real Zero-Shot Reinforcement Learning
- Title(参考訳): Sim2Real Zero-Shot強化学習のための最大エントロピー行動探索
- Authors: Jiajun Hu, Nuria Armengol Urpi, Jin Cheng, Stelian Coros,
- Abstract要約: 実際のロボットシステムにおける四足歩行制御のために,$textitonline$zero-shot RLについて検討した。
我々は、教師なしの行動探索戦略と正規化評論家を組み合わせたオンラインゼロショットRLアルゴリズムであるFB-MEBEを紹介する。
- 参考スコア(独自算出の注目度): 18.905272125661824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot reinforcement learning (RL) algorithms aim to learn a family of policies from a reward-free dataset, and recover optimal policies for any reward function directly at test time. Naturally, the quality of the pretraining dataset determines the performance of the recovered policies across tasks. However, pre-collecting a relevant, diverse dataset without prior knowledge of the downstream tasks of interest remains a challenge. In this work, we study $\textit{online}$ zero-shot RL for quadrupedal control on real robotic systems, building upon the Forward-Backward (FB) algorithm. We observe that undirected exploration yields low-diversity data, leading to poor downstream performance and rendering policies impractical for direct hardware deployment. Therefore, we introduce FB-MEBE, an online zero-shot RL algorithm that combines an unsupervised behavior exploration strategy with a regularization critic. FB-MEBE promotes exploration by maximizing the entropy of the achieved behavior distribution. Additionally, a regularization critic shapes the recovered policies toward more natural and physically plausible behaviors. We empirically demonstrate that FB-MEBE achieves and improved performance compared to other exploration strategies in a range of simulated downstream tasks, and that it renders natural policies that can be seamlessly deployed to hardware without further finetuning. Videos and code available on our website.
- Abstract(参考訳): ゼロショット強化学習(Zero-shot reinforcement learning, RL)アルゴリズムは、報酬のないデータセットからポリシーのファミリーを学習し、テスト時に直接報酬関数に対して最適なポリシーを回復することを目的としている。
当然、事前トレーニングデータセットの品質は、タスク間で回収されたポリシーのパフォーマンスを決定する。
しかし、下流のタスクに関する事前知識のない、関連する多様なデータセットを事前に収集することは、依然として課題である。
本研究では,FB(Forward-Backward)アルゴリズムを用いて,実際のロボットシステムの四重対制御のためのゼロショットRLについて検討する。
我々は,非指向探索が低ダイバーシティデータをもたらし,ダウンストリーム性能が低下し,直接ハードウェア展開に非現実的なレンダリングポリシーがもたらされるのを観察する。
そこで本稿では、教師なしの行動探索戦略と正規化評論家を組み合わせたオンラインゼロショットRLアルゴリズムであるFB-MEBEを紹介する。
FB-MEBEは、達成された挙動分布のエントロピーを最大化することで探索を促進する。
さらに、正規化批判は、より自然で物理的に妥当な行動に対する回復されたポリシーを形作っている。
実験により,FB-MEBEは下流タスクのシミュレーションにおいて,他の探索手法に比べて性能が向上し,性能が向上することが実証された。
ビデオとコードは当社のWebサイトで公開されている。
関連論文リスト
- Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning [9.341618348621662]
オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。
まず本研究では,本質的な報酬と UCB に基づくオンラインRL探索手法について検討する。
そして,これらの問題を回避するために,配当を廃止する計画を立てるアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-09T13:47:05Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。
我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文 参考訳(メタデータ) (2022-02-09T18:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。