論文の概要: Provable Sim-to-Real Transfer via Offline Domain Randomization
- arxiv url: http://arxiv.org/abs/2506.10133v1
- Date: Wed, 11 Jun 2025 19:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.412491
- Title: Provable Sim-to-Real Transfer via Offline Domain Randomization
- Title(参考訳): オフライン領域ランダム化によるSim-to-Real転送
- Authors: Arnaud Fickinger, Abderrahim Bendahi, Stuart Russell,
- Abstract要約: sim-to-realギャップを減らす主要な戦略はドメインランダム化(DR)である
Standard DRは、実際のシステムから利用可能なオフラインデータを無視する。
オフライン領域ランダム化(ODR)について検討し、まずシミュレーターパラメータの分布をオフラインデータセットに適合させる。
- 参考スコア(独自算出の注目度): 7.102939706790656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement-learning agents often struggle when deployed from simulation to the real-world. A dominant strategy for reducing the sim-to-real gap is domain randomization (DR) which trains the policy across many simulators produced by sampling dynamics parameters, but standard DR ignores offline data already available from the real system. We study offline domain randomization (ODR), which first fits a distribution over simulator parameters to an offline dataset. While a growing body of empirical work reports substantial gains with algorithms such as DROPO, the theoretical foundations of ODR remain largely unexplored. In this work, we (i) formalize ODR as a maximum-likelihood estimation over a parametric simulator family, (ii) prove consistency of this estimator under mild regularity and identifiability conditions, showing it converges to the true dynamics as the dataset grows, (iii) derive gap bounds demonstrating ODRs sim-to-real error is up to an O(M) factor tighter than uniform DR in the finite-simulator case (and analogous gains in the continuous setting), and (iv) introduce E-DROPO, a new version of DROPO which adds an entropy bonus to prevent variance collapse, yielding broader randomization and more robust zero-shot transfer in practice.
- Abstract(参考訳): 強化学習エージェントは、シミュレーションから実世界へのデプロイ時にしばしば苦労する。
sim-to-realギャップを減らす主要な戦略はドメインランダム化(DR)であり、動的パラメータのサンプリングによって生成された多くのシミュレータでポリシーを訓練するが、標準DRは実システムから既に利用可能なオフラインデータを無視する。
オフライン領域ランダム化(ODR)について検討し、まずシミュレーターパラメータの分布をオフラインデータセットに適合させる。
DROPOのようなアルゴリズムによる実証研究が増えている一方で、ODRの理論的基礎は未解明のままである。
この作品では、
(i)ODRをパラメトリックシミュレーター群上での最大線量推定として定式化する。
(II) この推定器の厳密な規則性と識別可能性条件下での整合性を証明し, データセットが成長するにつれて, 真の力学に収束することを示す。
3 ODRs sim-to-realエラーを示す導出ギャップ境界は、有限シミュレータの場合(および連続設定における類似ゲイン)において一様DRよりも厳密なO(M)因子である。
(iv)DROPOの新バージョンであるE-DROPOを導入し、分散崩壊を防ぐエントロピーボーナスを追加し、より広いランダム化とより堅牢なゼロショット転送を実現した。
関連論文リスト
- Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - Distributionally Robust Optimization as a Scalable Framework to Characterize Extreme Value Distributions [22.765095010254118]
本研究の目的は分散ロバストな最適化 (DRO) 推定器の開発であり、特に多次元極値理論 (EVT) の統計量についてである。
点過程の空間における半パラメトリックな最大安定制約によって予測されるDRO推定器について検討した。
両手法は, 合成データを用いて検証し, 所定の特性を回復し, 提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-07-31T19:45:27Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Domain Randomization via Entropy Maximization [32.76511125425768]
そこで本研究では,実世界のデータを必要としないシミュレーションにおいて,シミュレーション中の動的分布を自動的に生成する,sim-to-realトランスファーに対処する新しい手法を提案する。
トレーニング分布のエントロピーを直接最大化する制約付き最適化問題であるEntropy Maximization (DORAEMON) によるDOmain RAndomizationを導入する。
我々は、高度に適応的で一般化可能な政策を得る上で、DORAEMONの一貫性のある利点を実証的に検証する。
論文 参考訳(メタデータ) (2023-11-03T12:54:05Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - DROPO: Sim-to-Real Transfer with Offline Domain Randomization [12.778412161239466]
DROPOは、安全なsim-to-real転送のための領域ランダム化分布を推定する新しい手法である。
本研究では,DROPOがシミュレーション中の動的パラメータ分布を復元し,非モデル化現象を補償できる分布を求めることを実証する。
論文 参考訳(メタデータ) (2022-01-20T20:03:35Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - DR2L: Surfacing Corner Cases to Robustify Autonomous Driving via Domain
Randomization Reinforcement Learning [4.040937987024427]
ドメインランダム化(DR)は、このギャップをほとんど、あるいは全く現実世界のデータで埋めることのできる方法論である。
シミュレーションで訓練されたDeepRLベースの自動運転車を強固にするために、敵対モデルが提案されている。
論文 参考訳(メタデータ) (2021-07-25T09:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。