論文の概要: PhyScene3D: Physically Consistent Interactive 3D Tabletop Scene Generation
- arxiv url: http://arxiv.org/abs/2606.01649v2
- Date: Wed, 03 Jun 2026 08:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.598134
- Title: PhyScene3D: Physically Consistent Interactive 3D Tabletop Scene Generation
- Title(参考訳): PhyScene3D:物理的に一貫性のあるインタラクティブな3Dテーブルトップシーン生成
- Authors: Weixing Chen, Zhuoqian Feng, Yang Liu, Yexin Zhang, Yifan Wen, Yinghong Liao, Weichao Qiu, Guanbin Li, Liang Lin,
- Abstract要約: 3Dテーブルトップシーンの生成は、インタラクティブでジェネラリスト的なロボット学習の基本的な問題である。
本稿では,PhyScene3Dについて紹介する。
実験により、PhyScene3Dは意味的精度と物理的妥当性の両方において最先端のアプローチより優れていることが示された。
- 参考スコア(独自算出の注目度): 75.9028457575434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating physically consistent 3D tabletop scenes is a fundamental yet underexplored problem for interactive and generalist robotic learning. The challenge stems from dense object hierarchies and irregular affordances. Here, an interactive scene denotes a physically valid, collision-free environment directly loadable into physics simulators. Existing methods, ranging from decoupled symbolic solvers to end-to-end regression models, often suffer from error propagation or overfitting to noisy supervision containing widespread physical violations. To address these limitations, we introduce PhyScene3D, a framework that reformulates generation as a Human-Mimetic Constructive Process. The proposed Cognitive Topological Reasoning Chain (CTRC) factorizes scene synthesis into a sequential, anchor-conditioned process. It employs a 3D AABB-based placement scheme that imposes a strong structural inductive bias. To address imperfect supervision and physical infeasibility, we introduce Physics-Aware Denoising Alignment (PADA). It integrates a differentiable Signed Distance Field (SDF) with Test-Time Optimization (TTO) to project generated scenes onto a physics-feasible manifold while preserving semantic intent. Experiments demonstrate that PhyScene3D outperforms state-of-the-art approaches in both semantic accuracy and physical validity, achieving a 40% reduction in scene-wise collision rate relative to the human-annotated training data.
- Abstract(参考訳): 物理的に一貫した3Dテーブルトップシーンを生成することは、インタラクティブでジェネラリストなロボット学習の基本的な問題である。
この課題は、密集した対象階層と不規則な余裕に起因する。
ここでは、対話的なシーンは物理シミュレータに直接ロード可能な物理的に有効な衝突のない環境を表す。
既存の手法は、分離されたシンボル解決器からエンドツーエンドの回帰モデルまで、しばしばエラーの伝播や過度な監視に苦しむ。
これらの制約に対処するために, 生成をヒューマン・ミメティック・コンストラクティブ・プロセスとして再構成するフレームワークであるPhyScene3Dを導入する。
The proposed Cognitive Topological Reasoning Chain (CTRC) is factorizes scene synthesis into a sequence, anchor-conditioned process。
3DABBベースの配置スキームを採用しており、強い構造的帰納バイアスを課している。
不完全な監督と身体的不確実性に対処するため,我々はPhysics-Aware Denoising Alignment (PADA)を紹介した。
SDF(Signed Distance Field)とテスト時間最適化(Test-Time Optimization、TTO)を統合し、セマンティックな意図を維持しつつ、生成したシーンを物理実現可能な多様体に投影する。
実験により、PhyScene3Dは、意味的精度と物理的妥当性の両方において最先端のアプローチより優れており、人間の注釈付きトレーニングデータと比較して、シーンワイドの衝突率を40%削減できることが示された。
関連論文リスト
- REST3D: Reconstructing Physically Stable 3D Scenes from a Single Image [31.061246129846044]
1枚のRGB画像から物理的に安定な3Dシーンを再構成することで、カジュアル画像をシミュレーション可能なデジタルアセットに変換することができる。
物理的シーン理解と物理制約のある精細化を統合することで、物理的に安定な3Dシーンを再構成できる単一画像再構成フレームワークであるREST3Dを提案する。
論文 参考訳(メタデータ) (2026-05-28T17:59:01Z) - STABLE: Simulation-Ready Tabletop Layout Generation via a Semantics-Physics Dual System [76.3920413336862]
シミュレーション可能なテーブルトップシーン生成に適したセマンティックスと物理の二重システムであるSTABLEを提案する。
STABLEはセマンティック共振器と物理共振器の2つの相補的なモジュールで構成されている。
実験により、STABLEはタスク命令に厳密に準拠するシミュレーション可能なテーブルトップシーンを生成することができた。
論文 参考訳(メタデータ) (2026-05-15T16:18:42Z) - SceneTeract: Agentic Functional Affordances and VLM Grounding in 3D Scenes [49.117927512531715]
我々はエージェント固有の制約の下で3Dシーン機能を検証するフレームワークであるSceneTeractを紹介する。
SceneTeractは複雑なアクティビティをアトミックアクションのシーケンスに分解し、アクセシビリティ要求に対して各ステップを検証する。
具体化された3Dシーン理解における知覚と身体的現実を橋渡しするSceneTeract検証スイートとデータをリリースする。
論文 参考訳(メタデータ) (2026-03-31T14:31:18Z) - Motion Forcing: A Decoupled Framework for Robust Video Generation in Motion Dynamics [37.22501359080204]
ビデオ生成平衡の安定化を目的としたフレームワークである textbfMotion Forcing を導入する。
我々の重要な洞察は、視覚合成から物理的推論を明確に分離することである。
自動運転ベンチマークの実験によると、Motion Forcingは最先端のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-03-11T04:44:46Z) - Causal Reasoning Elicits Controllable 3D Scene Generation [35.22855710229319]
CausalStructは3Dシーン生成に因果推論を組み込む新しいフレームワークである。
ノードがオブジェクトや属性を表現する因果グラフを構築し、エッジが因果依存性と物理的制約をエンコードする。
提案手法では,3次元ガウス切削およびスコア蒸留サンプリングにより形状精度とレンダリング安定性を向上し,3次元シーンにおけるオブジェクト配置とレイアウトの誘導にテキストや画像を用いる。
論文 参考訳(メタデータ) (2025-09-18T01:03:21Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - gradSim: Differentiable simulation for system identification and
visuomotor control [66.37288629125996]
本稿では,微分可能マルチフィジカルシミュレーションと微分可能レンダリングを活用し,3次元監督への依存を克服するフレームワークであるgradsimを提案する。
当社の統合グラフは、状態ベースの(3D)監督に頼ることなく、挑戦的なバイスモメータ制御タスクで学習を可能にします。
論文 参考訳(メタデータ) (2021-04-06T16:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。