論文の概要: Simulation-Ready Cluttered Scene Estimation via Physics-aware Joint Shape and Pose Optimization
- arxiv url: http://arxiv.org/abs/2602.20150v1
- Date: Mon, 23 Feb 2026 18:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.963591
- Title: Simulation-Ready Cluttered Scene Estimation via Physics-aware Joint Shape and Pose Optimization
- Title(参考訳): 物理認識型継手形状とポース最適化によるシミュレーション対応クラッタシーン推定
- Authors: Wei-Cheng Huang, Jiaheng Han, Xiaohan Ye, Zherong Pan, Kris Hauser,
- Abstract要約: 実世界の観測からシミュレーション可能なシーンを推定することは、下流の計画と政策学習タスクに不可欠である。
既存の手法は乱雑な環境で苦労する。
実写シーン推定のための統一的な最適化に基づく定式化を提案する。
- 参考スコア(独自算出の注目度): 27.083888910311984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating simulation-ready scenes from real-world observations is crucial for downstream planning and policy learning tasks. Regretfully, existing methods struggle in cluttered environments, often exhibiting prohibitive computational cost, poor robustness, and restricted generality when scaling to multiple interacting objects. We propose a unified optimization-based formulation for real-to-sim scene estimation that jointly recovers the shapes and poses of multiple rigid objects under physical constraints. Our method is built on two key technical innovations. First, we leverage the recently introduced shape-differentiable contact model, whose global differentiability permits joint optimization over object geometry and pose while modeling inter-object contacts. Second, we exploit the structured sparsity of the augmented Lagrangian Hessian to derive an efficient linear system solver whose computational cost scales favorably with scene complexity. Building on this formulation, we develop an end-to-end real-to-sim scene estimation pipeline that integrates learning-based object initialization, physics-constrained joint shape-pose optimization, and differentiable texture refinement. Experiments on cluttered scenes with up to 5 objects and 22 convex hulls demonstrate that our approach robustly reconstructs physically valid, simulation-ready object shapes and poses.
- Abstract(参考訳): 実世界の観測からシミュレーション可能なシーンを推定することは、下流の計画と政策学習タスクに不可欠である。
既存の手法は乱雑な環境に苦しむが、しばしば計算コストの禁止、堅牢性の低さ、そして複数の相互作用するオブジェクトにスケールする際の一般性に制限がある。
物理的制約下での複数の剛体物体の形状とポーズを協調的に復元する実写シーン推定のための統一的な最適化に基づく定式化を提案する。
我々の手法は2つの重要な技術革新に基づいている。
まず, オブジェクト間の接触をモデル化しながら, オブジェクト形状とポーズを協調的に最適化できる大域的微分可能性を持つ, 最近導入された形状微分可能な接触モデルを利用する。
第2に、拡張ラグランジアン・ヘッセンの構造的疎度を利用して、計算コストがシーンの複雑さに優しくスケールする効率的な線形システム解法を導出する。
この定式化に基づいて,学習に基づくオブジェクトの初期化,物理制約のある関節形状最適化,テクスチャの微調整などを統合した,エンドツーエンドのシーン推定パイプラインを開発した。
最大5つの物体と22個の凸殻を持つ散らばったシーンの実験により、我々のアプローチは物理的に有効でシミュレーション可能な物体の形状とポーズを頑健に再構築することを示した。
関連論文リスト
- Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects [59.51185639557874]
本稿では,任意のRGB画像やテキスト記述から直接音声オブジェクトを合成するフレームワークであるKinematifyを紹介する。
提案手法は, 高DoFオブジェクトに対する運動的トポロジの推測と静的幾何からの関節パラメータの推定という2つの課題に対処する。
論文 参考訳(メタデータ) (2025-11-03T07:21:42Z) - GaussianArt: Unified Modeling of Geometry and Motion for Articulated Objects [4.717906057951389]
本稿では,3次元ガウスモデルを用いて幾何学と運動を共同でモデル化する統一表現を提案する。
この定式化により、運動分解の堅牢性が向上し、最大で20個の部分を持つ明瞭な物体をサポートする。
提案手法は, 広範囲な物体の形状復元と動き推定において, 常に優れた精度を達成できることを示す。
論文 参考訳(メタデータ) (2025-08-20T17:59:08Z) - ArtGS: Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting [66.29782808719301]
コンピュータビジョンにおいて、音声で表現されたオブジェクトを構築することが重要な課題である。
既存のメソッドは、しばしば異なるオブジェクト状態間で効果的に情報を統合できない。
3次元ガウスを柔軟かつ効率的な表現として活用する新しいアプローチであるArtGSを紹介する。
論文 参考訳(メタデータ) (2025-02-26T10:25:32Z) - DeepSimHO: Stable Pose Estimation for Hand-Object Interaction via
Physics Simulation [81.11585774044848]
我々は、前方物理シミュレーションと後方勾配近似とニューラルネットワークを組み合わせた新しいディープラーニングパイプラインであるDeepSimHOを紹介する。
提案手法は, 評価の安定性を著しく向上し, テスト時間最適化よりも優れた効率性を実現する。
論文 参考訳(メタデータ) (2023-10-11T05:34:36Z) - UniQuadric: A SLAM Backend for Unknown Rigid Object 3D Tracking and
Light-Weight Modeling [7.626461564400769]
本稿では,エゴモーショントラッキング,剛体オブジェクトモーショントラッキング,モデリングを統一するSLAMバックエンドを提案する。
本システムは,複雑な動的シーンにおける物体知覚の潜在的な応用を実証する。
論文 参考訳(メタデータ) (2023-09-29T07:50:09Z) - Near-realtime Facial Animation by Deep 3D Simulation Super-Resolution [7.14576106770047]
本稿では,低コストでリアルタイムな物理シミュレーションによって生み出す顔のパフォーマンスを効率よく,現実的に向上させるニューラルネットワークに基づくシミュレーションフレームワークを提案する。
顔のアニメーションをこのようなシミュレーション領域の例に用いて,2つのシミュレータで同じ筋の運動制御と骨格のポーズを単純にダイヤルすることで,この意味の一致を創り出すことができる。
提案するニューラルネットワーク超解像フレームワークは,このトレーニングセットから未確認表現を一般化し,リアルタイム変種における解像度の制限やコスト削減近似による2つのシミュレーション間の不一致をモデル化するための補償を行うとともに,意味記述子やパラメータを必要としない。
論文 参考訳(メタデータ) (2023-05-05T00:09:24Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。