論文の概要: Neural Fidelity Calibration for Informative Sim-to-Real Adaptation
- arxiv url: http://arxiv.org/abs/2504.08604v1
- Date: Fri, 11 Apr 2025 15:12:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:19:29.227334
- Title: Neural Fidelity Calibration for Informative Sim-to-Real Adaptation
- Title(参考訳): Informative Sim-to-Real Adaptationのためのニューラルフィデリティ校正法
- Authors: Youwei Yu, Lantao Liu,
- Abstract要約: 深い強化学習は、アジャイルの移動とナビゲーションのスキルをシミュレータから現実世界にシームレスに移行することができる。
しかし、ドメインのランダム化や敵対的手法とシム・トゥ・リアルのギャップを埋めることは、しばしば政策の堅牢性を保証するために専門家の物理学知識を必要とする。
本研究では, 条件付きスコアベース拡散モデルを用いて, ロボットの動作中における物理係数と残留忠実度領域のキャリブレーションを行う新しいフレームワークであるNeural Fidelity(NFC)を提案する。
- 参考スコア(独自算出の注目度): 10.117298045153564
- License:
- Abstract: Deep reinforcement learning can seamlessly transfer agile locomotion and navigation skills from the simulator to real world. However, bridging the sim-to-real gap with domain randomization or adversarial methods often demands expert physics knowledge to ensure policy robustness. Even so, cutting-edge simulators may fall short of capturing every real-world detail, and the reconstructed environment may introduce errors due to various perception uncertainties. To address these challenges, we propose Neural Fidelity Calibration (NFC), a novel framework that employs conditional score-based diffusion models to calibrate simulator physical coefficients and residual fidelity domains online during robot execution. Specifically, the residual fidelity reflects the simulation model shift relative to the real-world dynamics and captures the uncertainty of the perceived environment, enabling us to sample realistic environments under the inferred distribution for policy fine-tuning. Our framework is informative and adaptive in three key ways: (a) we fine-tune the pretrained policy only under anomalous scenarios, (b) we build sequential NFC online with the pretrained NFC's proposal prior, reducing the diffusion model's training burden, and (c) when NFC uncertainty is high and may degrade policy improvement, we leverage optimistic exploration to enable hallucinated policy optimization. Our framework achieves superior simulator calibration precision compared to state-of-the-art methods across diverse robots with high-dimensional parametric spaces. We study the critical contribution of residual fidelity to policy improvement in simulation and real-world experiments. Notably, our approach demonstrates robust robot navigation under challenging real-world conditions, such as a broken wheel axle on snowy surfaces.
- Abstract(参考訳): 深い強化学習は、アジャイルの移動とナビゲーションのスキルをシミュレータから現実世界にシームレスに移行することができる。
しかし、ドメインのランダム化や敵対的手法とシム・トゥ・リアルのギャップを埋めることは、しばしば政策の堅牢性を保証するために専門家の物理学知識を必要とする。
それでも、最先端のシミュレーターは現実世界のあらゆる詳細を捉えるには足りず、再構成された環境は様々な認識の不確実性のためにエラーを起こす可能性がある。
これらの課題に対処するために,条件付きスコアベース拡散モデルを用いた新しいフレームワークであるNeural Fidelity Calibration(NFC)を提案する。
具体的には, 実世界の動態に対するシミュレーションモデルシフトを反映し, 認識環境の不確かさを捉え, 政策微調整のための推定分布下で実環境をサンプリングすることができる。
私たちのフレームワークは,3つの重要な方法で情報的かつ適応的です。
(a)異常なシナリオでのみ事前訓練されたポリシーを微調整する。
(b)事前訓練されたNFCの提案により、オンラインでシーケンシャルNFCを構築し、拡散モデルのトレーニング負担を軽減し、
(c)NFCの不確実性が高く、政策改善が低下するおそれがある場合、楽観的な探索を活用して、幻覚的な政策最適化を実現する。
本フレームワークは,高次元パラメトリック空間を持つ多種多様なロボットを対象とした最先端手法と比較して,シミュレータのキャリブレーション精度が優れている。
シミュレーションおよび実世界実験における政策改善に対する残留忠実度の重要性について検討する。
特に本手法は,雪面上の車輪軸の破損など,現実の困難な状況下での堅牢なロボットナビゲーションを実証する。
関連論文リスト
- Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
私たちは世界モデルを学ぶための新しいフレームワークを紹介します。
スケーラブルで堅牢なフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - LoopSR: Looping Sim-and-Real for Lifelong Policy Adaptation of Legged Robots [20.715834172041763]
本稿では,生涯にわたるポリシー適応フレームワークであるLoopSRを提案する。
さらなる改善のためにシミュレーションで現実世界の環境を再構築する。
継続的なトレーニングを活用することで、LoopSRは強力なベースラインに比べて優れたデータ効率を達成する。
論文 参考訳(メタデータ) (2024-09-26T16:02:25Z) - ReGentS: Real-World Safety-Critical Driving Scenario Generation Made Stable [88.08120417169971]
機械学習に基づく自律運転システムは、現実世界のデータでは稀な安全クリティカルなシナリオで課題に直面していることが多い。
この研究は、軌道最適化によって複雑な現実世界の通常のシナリオを変更することによって、安全クリティカルな運転シナリオを生成することを検討する。
提案手法は、頑健なプランナーの訓練には役に立たない非現実的な発散軌道と避けられない衝突シナリオに対処する。
論文 参考訳(メタデータ) (2024-09-12T08:26:33Z) - Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning [15.792914346054502]
我々は、カバーパス計画(CPP)のための強化学習エージェント(RL)のSim-to-real転送の課題に取り組む。
シミュレーションされたセンサと障害物を利用しながら、現実のロボットやリアルタイムの側面を含む半仮想環境を通じて、シミュレートと現実のギャップを橋渡しする。
高い推測周波数は、一階マルコフのポリシーをシミュレーションから直接転送することを可能にし、高階のポリシーを微調整することで、sim-to-realのギャップをさらに減らすことができる。
論文 参考訳(メタデータ) (2024-06-07T13:24:19Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z) - Residual Physics Learning and System Identification for Sim-to-real
Transfer of Policies on Buoyancy Assisted Legged Robots [14.760426243769308]
本研究では,BALLUロボットのシステム識別による制御ポリシのロバストなシミュレートを実演する。
標準的な教師あり学習の定式化に頼るのではなく、深層強化学習を利用して外部力政策を訓練する。
シミュレーショントラジェクトリと実世界のトラジェクトリを比較することで,改良されたシミュレーション忠実度を解析する。
論文 参考訳(メタデータ) (2023-03-16T18:49:05Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Sim-to-Real Transfer with Incremental Environment Complexity for
Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。
アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文 参考訳(メタデータ) (2020-04-30T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。