論文の概要: Simulator Adaptation for Sim-to-Real Learning of Legged Locomotion via Proprioceptive Distribution Matching
- arxiv url: http://arxiv.org/abs/2604.11090v1
- Date: Mon, 13 Apr 2026 07:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.383947
- Title: Simulator Adaptation for Sim-to-Real Learning of Legged Locomotion via Proprioceptive Distribution Matching
- Title(参考訳): 主観的分布マッチングによる脚運動の同時学習のためのシミュレータ適応
- Authors: Jeremy Dao, Alan Fern,
- Abstract要約: シミュレーショントレーニングされた足の移動ポリシーは、シミュレータと現実世界のダイナミックスの違いによるハードウェアの性能低下を示す。
以前の研究は通常、関節と基底の軌跡の正確な時間的整合によってこれらの不一致を定量化する。
本稿では, ハードウェアとシミュレーションのロールアウトを共同観測と行動の分布として比較する, 主観的分布マッチングに基づく実用的な方法を提案する。
- 参考スコア(独自算出の注目度): 16.52598063527788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simulation trained legged locomotion policies often exhibit performance loss on hardware due to dynamics discrepancies between the simulator and the real world, highlighting the need for approaches that adapt the simulator itself to better match hardware behavior. Prior work typically quantify these discrepancies through precise, time-aligned matching of joint and base trajectories. This process requires motion capture, privileged sensing, and carefully controlled initial conditions. We introduce a practical alternative based on proprioceptive distribution matching, which compares hardware and simulation rollouts as distributions of joint observations and actions, eliminating the need for time alignment or external sensing. Using this metric as a black-box objective, we explore adapting simulator dynamics through parameter identification, action-delta models, and residual actuator models. Our approach matches the parameter recovery and policy-performance gains of privileged state-matching baselines across extensive sim-to-sim ablations on the Go2 quadruped. Real-world experiments demonstrate substantial drift reduction using less than five minutes of hardware data, even for a challenging two-legged walking behavior. These results demonstrate that proprioceptive distribution matching provides a practical and effective route to simulator adaptation for sim-to-real transfer of learned legged locomotion.
- Abstract(参考訳): シミュレーション訓練された脚の移動ポリシーは、シミュレータと現実世界のダイナミックな相違によるハードウェアの性能低下をしばしば示し、シミュレータ自体がハードウェアの動作によく合うように適応するアプローチの必要性を強調した。
以前の研究は通常、関節と基底の軌跡の正確な時間的整合によってこれらの不一致を定量化する。
このプロセスには、モーションキャプチャー、特権付きセンシング、注意深く制御された初期条件が必要である。
本稿では,ハードウェアとシミュレーションのロールアウトを共同観測と行動の分布として比較し,時間的アライメントや外部センサの不要さを解消する。
この指標をブラックボックスの目的として用い,パラメータ同定,アクションデルタモデル,残留アクチュエータモデルによるシミュレーション力学の適応について検討する。
提案手法は,Go2の4倍体における広範囲なシミュレートとシミュレートにより,特権付き状態マッチングベースラインのパラメータリカバリとポリシ・パフォーマンスゲインとを一致させる。
実世界の実験では、5分未満のハードウェアデータを用いて、挑戦的な2本足歩行行動であっても、相当なドリフト低減を実証している。
以上の結果から, プロテアーゼの分布マッチングは, 学習した足の運動のシミュレートと現実の移動をシミュレーションするための, 実用的で効果的な手法であることが示唆された。
関連論文リスト
- Toward Efficient and Robust Behavior Models for Multi-Agent Driving Simulation [4.713158796503602]
マルチエージェント駆動シミュレーションは現実的で計算効率の良い行動モデルを必要とする。
インスタンス中心のシーン表現を採用し、各トラフィック参加者と要素マップをそれぞれのローカル座標フレームでモデル化する。
インタラクションをモデル化するために、ローカルフレーム間の相対的な位置エンコーディングを備えたクエリ中心の対称コンテキストエンコーダを用いる。
論文 参考訳(メタデータ) (2025-12-05T15:32:36Z) - DiffSim2Real: Deploying Quadrupedal Locomotion Policies Purely Trained in Differentiable Simulation [35.76143996968696]
微分可能シミュレータから解析勾配で学習したロコモーションポリシーを実世界へ移動させることが可能であることを示す。
私たちの成功の重要な要因は、情報的勾配と物理的精度を組み合わせたスムーズな接触モデルです。
本物のクアッドペダルロボットが、独自のシミュレーションでトレーニングをした後で、独創的になれるのは、これが初めてだ。
論文 参考訳(メタデータ) (2024-11-04T15:43:57Z) - Bridging the Sim-to-Real Gap with Bayesian Inference [53.61496586090384]
データからロボットダイナミクスを学習するためのSIM-FSVGDを提案する。
我々は、ニューラルネットワークモデルのトレーニングを規則化するために、低忠実度物理プリエンスを使用します。
高性能RCレースカーシステムにおけるSIM-to-realギャップのブリッジ化におけるSIM-FSVGDの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T11:29:32Z) - Learning Quadruped Locomotion Using Differentiable Simulation [31.80380408663424]
微分可能シミュレーションは、高速収束と安定した訓練を約束する。
本研究はこれらの課題を克服するための新しい微分可能シミュレーションフレームワークを提案する。
我々のフレームワークは並列化なしで数分で四足歩行を学習できる。
論文 参考訳(メタデータ) (2024-03-21T22:18:59Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Perception Imitation: Towards Synthesis-free Simulator for Autonomous
Vehicles [45.27200446670184]
本研究では,ある知覚モデルの結果をシミュレートする知覚模倣手法を提案し,データ合成を伴わない自律走行シミュレータの新たな経路について議論する。
実験により,本手法は学習に基づく知覚モデルの振る舞いをモデル化する上で有効であることが示され,提案手法のシミュレーション経路にさらにスムーズに適用可能である。
論文 参考訳(メタデータ) (2023-04-19T01:27:02Z) - DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。
DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。
実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文 参考訳(メタデータ) (2021-04-30T15:30:05Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。