論文の概要: Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation
- arxiv url: http://arxiv.org/abs/2510.11689v1
- Date: Mon, 13 Oct 2025 17:51:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.965067
- Title: Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation
- Title(参考訳): Phys2Real: 不確かさを意識したSim-to-Real操作のための対話型オンライン適応によるVLMプリミティブ
- Authors: Maggie Wang, Stephen Tian, Aiden Swann, Ola Shorinwa, Jiajun Wu, Mac Schwager,
- Abstract要約: Phys2Realは、視覚言語モデル(VLM)を推論した物理パラメータ推定と、不確実性を考慮した融合による対話的適応を組み合わせた、リアルからシミュレート・トゥ・リアルなRLパイプラインである。
提案手法は,(1)3次元ガウススプラッティングによる高忠実度幾何再構成,(2)物理パラメータによるVLM推定,(3)相互作用データからのオンライン物理パラメータ推定の3要素からなる。
- 参考スコア(独自算出の注目度): 17.786858357661604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning robotic manipulation policies directly in the real world can be expensive and time-consuming. While reinforcement learning (RL) policies trained in simulation present a scalable alternative, effective sim-to-real transfer remains challenging, particularly for tasks that require precise dynamics. To address this, we propose Phys2Real, a real-to-sim-to-real RL pipeline that combines vision-language model (VLM)-inferred physical parameter estimates with interactive adaptation through uncertainty-aware fusion. Our approach consists of three core components: (1) high-fidelity geometric reconstruction with 3D Gaussian splatting, (2) VLM-inferred prior distributions over physical parameters, and (3) online physical parameter estimation from interaction data. Phys2Real conditions policies on interpretable physical parameters, refining VLM predictions with online estimates via ensemble-based uncertainty quantification. On planar pushing tasks of a T-block with varying center of mass (CoM) and a hammer with an off-center mass distribution, Phys2Real achieves substantial improvements over a domain randomization baseline: 100% vs 79% success rate for the bottom-weighted T-block, 57% vs 23% in the challenging top-weighted T-block, and 15% faster average task completion for hammer pushing. Ablation studies indicate that the combination of VLM and interaction information is essential for success. Project website: https://phys2real.github.io/ .
- Abstract(参考訳): ロボット操作ポリシーを直接現実世界で学ぶことは、高価で時間がかかる。
シミュレーションで訓練された強化学習(RL)ポリシーは、スケーラブルな代替手段を提供するが、特に正確なダイナミクスを必要とするタスクでは、効果的なsim-to-real転送は難しいままである。
そこで本研究では,視覚言語モデル(VLM)に基づく物理パラメータ推定と,不確実性を考慮した融合による対話的適応を組み合わせた実対シミュレート・トゥ・リアルRLパイプラインであるPhys2Realを提案する。
提案手法は,(1)3次元ガウススプラッティングによる高忠実度幾何再構成,(2)物理パラメータ上のVLM推定前の分布,(3)相互作用データからのオンライン物理パラメータ推定の3つの要素から構成される。
Phys2Real conditions on interpretable physical parameters, refining VLM predictions with online estimates through ensemble-based uncertainty Quantification。
種々の質量中心(CoM)を持つTブロックの平面プッシュタスクとオフセンター質量分布を持つハンマーにおいて、Phys2Realはドメインランダム化ベースラインよりも大幅に改善されている: 100%対79%のボトムウェイトTブロックの成功率、挑戦的なトップウェイトTブロックの57%対23%、ハンマープッシュの平均タスク完了率15%。
アブレーション研究は、VLMと相互作用情報の組み合わせが成功に不可欠であることを示している。
プロジェクトウェブサイト: https://phys2real.github.io/
関連論文リスト
- EmbodieDreamer: Advancing Real2Sim2Real Transfer for Policy Training via Embodied World Modeling [30.706647962741826]
EmbodieDreamerは、Real2Sim2Realのギャップを物理と外観の両方の観点から減らす新しいフレームワークである。
具体的には、Real2Sim物理ギャップを低減するために設計された微分可能な物理モジュールであるPhysAlignerを提案する。
さらに、条件付きビデオ拡散モデルを用いて、Sim2Realの外観ギャップを埋めるVisAlignerを導入する。
論文 参考訳(メタデータ) (2025-07-07T16:58:17Z) - Hybrid Neural-MPM for Interactive Fluid Simulations in Real-Time [57.30651532625017]
本稿では,数値シミュレーション,神経物理,生成制御を統合した新しいハイブリッド手法を提案する。
本システムでは, 多様な2D/3Dシナリオ, 材料タイプ, 障害物相互作用における堅牢な性能を示す。
受け入れ次第、モデルとデータの両方をリリースすることを約束します。
論文 参考訳(メタデータ) (2025-05-25T01:27:18Z) - Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - GaussianProperty: Integrating Physical Properties to 3D Gaussians with LMMs [21.3615403516602]
視覚データに対する物理的特性の推定は、コンピュータビジョン、グラフィックス、ロボット工学において重要な課題である。
教材の物理的特性を3Dガウスアンに割り当てる学習自由フレームワークであるガウスプロパティを紹介する。
物理特性アノテーションを持つ3次元ガウスアンが物理に基づく動的シミュレーションやロボットグルーピングに応用できることを実証する。
論文 参考訳(メタデータ) (2024-12-15T17:44:10Z) - Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models [9.474337395173388]
視覚言語モデル(VLM)における物理推論の課題
ファインチューニングは大きなモデルでは高価であり、すべてのタスクで繰り返し実行できない。
我々は,物理シーンの詳細な記述を生成するために,特殊なVLMを微調整した新しいモジュラーフレームワークであるPhysical Context Builders (PCBs)を紹介した。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - DeepSimHO: Stable Pose Estimation for Hand-Object Interaction via
Physics Simulation [81.11585774044848]
我々は、前方物理シミュレーションと後方勾配近似とニューラルネットワークを組み合わせた新しいディープラーニングパイプラインであるDeepSimHOを紹介する。
提案手法は, 評価の安定性を著しく向上し, テスト時間最適化よりも優れた効率性を実現する。
論文 参考訳(メタデータ) (2023-10-11T05:34:36Z) - AdaptSim: Task-Driven Simulation Adaptation for Sim-to-Real Transfer [10.173835871228718]
AdaptSimは、ターゲット(現実)環境でのタスクパフォーマンスの最適化を目的としている。
まず、強化学習を用いたシミュレーションにおける適応ポリシーをメタラーニングする。
次に、ポリシートレーニングのための新しいシミュレーションパラメータ分布を推定することにより、反復的実世界の適応を行う。
論文 参考訳(メタデータ) (2023-02-09T19:10:57Z) - Learning Physical Dynamics with Subequivariant Graph Neural Networks [99.41677381754678]
グラフニューラルネットワーク(GNN)は、物理力学を学習するための一般的なツールとなっている。
物理法則は、モデル一般化に必須な帰納バイアスである対称性に従属する。
本モデルは,RigidFall上でのPhysylonと2倍低ロールアウトMSEの8つのシナリオにおいて,平均3%以上の接触予測精度の向上を実現している。
論文 参考訳(メタデータ) (2022-10-13T10:00:30Z) - Fast Modeling and Understanding Fluid Dynamics Systems with
Encoder-Decoder Networks [0.0]
本研究では,有限体積シミュレータを用いて,高精度な深層学習に基づくプロキシモデルを効率的に教えることができることを示す。
従来のシミュレーションと比較して、提案したディープラーニングアプローチはより高速なフォワード計算を可能にする。
深層学習モデルの重要物理パラメータに対する感度を定量化することにより、インバージョン問題を大きな加速で解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-09T17:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。