論文の概要: Vid2Sid: Videos Can Help Close the Sim2Real Gap
- arxiv url: http://arxiv.org/abs/2602.19359v1
- Date: Sun, 22 Feb 2026 22:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.606883
- Title: Vid2Sid: Videos Can Help Close the Sim2Real Gap
- Title(参考訳): Vid2Sid:ビデオがSim2Realのギャップを埋める
- Authors: Kevin Qiu, Yu Zhang, Marek Cygan, Josie Hughes,
- Abstract要約: Vid2Sidはビデオ駆動型システム識別パイプラインで、基礎モデル認識とVLM-in-the-loopを結合する。
VLM誘導最適化は、知覚がクリーンでシミュレータが表現性が高い場合に優れる。
- 参考スコア(独自算出の注目度): 11.15632917885084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Calibrating a robot simulator's physics parameters (friction, damping, material stiffness) to match real hardware is often done by hand or with black-box optimizers that reduce error but cannot explain which physical discrepancies drive the error. When sensing is limited to external cameras, the problem is further compounded by perception noise and the absence of direct force or state measurements. We present Vid2Sid, a video-driven system identification pipeline that couples foundation-model perception with a VLM-in-the-loop optimizer that analyzes paired sim-real videos, diagnoses concrete mismatches, and proposes physics parameter updates with natural language rationales. We evaluate our approach on a tendon-actuated finger (rigid-body dynamics in MuJoCo) and a deformable continuum tentacle (soft-body dynamics in PyElastica). On sim2real holdout controls unseen during training, Vid2Sid achieves the best average rank across all settings, matching or exceeding black-box optimizers while uniquely providing interpretable reasoning at each iteration. Sim2sim validation confirms that Vid2Sid recovers ground-truth parameters most accurately (mean relative error under 13\% vs. 28--98\%), and ablation analysis reveals three calibration regimes. VLM-guided optimization excels when perception is clean and the simulator is expressive, while model-class limitations bound performance in more challenging settings.
- Abstract(参考訳): ロボットシミュレータの物理パラメータ(摩擦、減衰、材料硬度)を実際のハードウェアに適合させる場合、しばしば手動やブラックボックスオプティマイザによって行われる。
センサが外部カメラに限定されている場合、この問題は知覚ノイズと直接力や状態測定の欠如によってさらに複雑になる。
本稿では,VLM-in-the-loopオプティマイザと基礎モデル認識を結合したビデオ駆動型システム識別パイプラインVid2Sidを提案する。
本研究では, 腱作動指( MuJoCo の剛体力学)と変形可能な連続体触子(PyElastica のソフトボディ力学)について検討した。
トレーニング中に見えないsim2realのホールトアウトコントロールでは、Vid2Sidは各イテレーションで解釈可能な推論を提供しながら、すべての設定で最高の平均ランクを獲得し、ブラックボックスオプティマイザをマッチまたは超過します。
Sim2sim バリデーションでは,Vid2Sid が最も正確なグラウンドトルースパラメータ (平均相対誤差 13 % vs. 28-98 %) を復元し,アブレーション解析により3つの校正条件を明らかにした。
VLM誘導最適化は、知覚がクリーンでシミュレータが表現力のある場合に優れ、モデルクラスの制限はより困難な設定で性能を制限している。
関連論文リスト
- FastPhysGS: Accelerating Physics-based Dynamic 3DGS Simulation via Interior Completion and Adaptive Optimization [56.17833729527066]
我々は物理に基づく動的3DGSシミュレーションのためのフレームワークであるFastPhysGSを提案する。
FastPhysGSは、わずか7GBのランタイムメモリを使用して、1分で高忠実度物理シミュレーションを実現する。
論文 参考訳(メタデータ) (2026-02-02T07:00:42Z) - Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation [17.786858357661604]
Phys2Realは、視覚言語モデル(VLM)を推論した物理パラメータ推定と、不確実性を考慮した融合による対話的適応を組み合わせた、リアルからシミュレート・トゥ・リアルなRLパイプラインである。
提案手法は,(1)3次元ガウススプラッティングによる高忠実度幾何再構成,(2)物理パラメータによるVLM推定,(3)相互作用データからのオンライン物理パラメータ推定の3要素からなる。
論文 参考訳(メタデータ) (2025-10-13T17:51:23Z) - TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility [70.24211591214528]
ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。
既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。
我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。
言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
論文 参考訳(メタデータ) (2025-10-08T21:03:46Z) - EmbodieDreamer: Advancing Real2Sim2Real Transfer for Policy Training via Embodied World Modeling [30.706647962741826]
EmbodieDreamerは、Real2Sim2Realのギャップを物理と外観の両方の観点から減らす新しいフレームワークである。
具体的には、Real2Sim物理ギャップを低減するために設計された微分可能な物理モジュールであるPhysAlignerを提案する。
さらに、条件付きビデオ拡散モデルを用いて、Sim2Realの外観ギャップを埋めるVisAlignerを導入する。
論文 参考訳(メタデータ) (2025-07-07T16:58:17Z) - ProJo4D: Progressive Joint Optimization for Sparse-View Inverse Physics Estimation [4.818571559544214]
物理を視覚データから推定する逆問題では、いまだに困難である。
本稿では,段階的共同最適化フレームワークProJo4Dを提案する。
ProJo4Dは, 4次元の将来の状態, 将来の状態の新たなレンダリング, 材料パラメータ推定において, 先行処理よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-05T17:55:56Z) - VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文 参考訳(メタデータ) (2025-03-09T22:49:12Z) - Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation [62.5805866419814]
Vid2Simは、ニューラル3Dシーンの再構築とシミュレーションのためのスケーラブルで費用効率のよいReal2simパイプラインを通じてsim2realギャップをブリッジする新しいフレームワークである。
実験により、Vid2Simはデジタル双生児と現実世界の都市ナビゲーションの性能を31.2%、成功率68.3%で大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-01-12T03:01:15Z) - MultiPhys: Multi-Person Physics-aware 3D Motion Estimation [28.91813849219037]
モノクロビデオから多人数動作を復元する手法であるMultiPhysを紹介する。
私たちの焦点は、様々なエンゲージメントの度合いで、ペアの個人間のコヒーレントな空間配置をキャプチャすることにあります。
本研究では,運動量に基づく運動を物理シミュレーターに自動回帰的に供給するパイプラインを考案する。
論文 参考訳(メタデータ) (2024-04-18T08:29:29Z) - Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。
本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。