論文の概要: STABLE: Simulation-Ready Tabletop Layout Generation via a Semantics-Physics Dual System
- arxiv url: http://arxiv.org/abs/2605.16137v2
- Date: Tue, 19 May 2026 15:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.449054
- Title: STABLE: Simulation-Ready Tabletop Layout Generation via a Semantics-Physics Dual System
- Title(参考訳): STABLE:Semantics-Physics Dualシステムによるシミュレーション可能なテーブルトップレイアウト生成
- Authors: Zhen Luo, Yixuan Yang, Xudong Xu, Jinkun Hao, Zhaoyang Lyu, Feng Zheng, Jiangmiao Pang, Yanwei Fu,
- Abstract要約: シミュレーション可能なテーブルトップシーン生成に適したセマンティックスと物理の二重システムであるSTABLEを提案する。
STABLEはセマンティック共振器と物理共振器の2つの相補的なモジュールで構成されている。
実験により、STABLEはタスク命令に厳密に準拠するシミュレーション可能なテーブルトップシーンを生成することができた。
- 参考スコア(独自算出の注目度): 76.3920413336862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating simulation-ready tabletop scenes from task instructions is an intriguing and promising research direction in the field of Embodied AI. However, existing task-to-scene generation methods rely exclusively on large language models (LLMs) to predict scene layouts, inevitably yielding object collisions or floating due to LLMs' inherent limitations in 3D spatial reasoning. In this paper, we present STABLE, a semantics-physics dual-system tailored for simulation-ready tabletop scene generation. STABLE consists of two complementary modules: (i) a Semantic Reasoner, a fine-tuned LLM trained on a structured tabletop scene dataset to generate coarse layouts from input task instructions, and (ii) a Physics Corrector, a physics-aware flow-based denoising model that outputs pose updates to refine layouts, which ensures the physical plausibility of scenes while preserves semantic alignment with task instructions. STABLE adopts a progressive generation paradigm: by alternating between the Semantic Reasoner and Physics Corrector, it incrementally expands the scene from task-critical objects to background objects. Experiments demonstrate that STABLE successfully generates simulation-ready tabletop scenes that strictly conform to task instructions and significantly enhances the physical validity of scenes over prior art.
- Abstract(参考訳): タスク命令からシミュレーション可能なテーブルトップシーンを生成することは、Embodied AIの分野における興味深い、有望な研究方向である。
しかし、既存のタスク・ツー・シーン生成法は、大きな言語モデル(LLM)に頼ってシーンレイアウトを予測し、必然的にオブジェクト衝突や浮動を発生させる。
本稿では,シミュレーション可能なテーブルトップシーン生成に適したセマンティックスと物理の二重システムSTABLEを提案する。
STABLEは2つの相補的なモジュールから構成される。
一 セマンティック推論器、入力タスク命令から粗いレイアウトを生成するための構造化テーブルトップシーンデータセットで訓練された微調整LDM
(II)物理対応フローベースデノゲーションモデルである物理コレクターは,シーンの物理的妥当性を確保しつつ,タスク命令とのセマンティックアライメントを保ちながら,レイアウトの微妙な更新のポーズを出力する。
STABLEはプログレッシブ・ジェネレーション・パラダイムを採用しており、セマンティック・レゾナーと物理コレクターを交互に組み合わせることで、タスククリティカル・オブジェクトからバックグラウンド・オブジェクトへとシーンを段階的に拡張する。
実験により,STABLEはタスク命令に厳格に準拠するシミュレーション可能なテーブルトップシーンの生成に成功し,先行技術よりもシーンの物理的妥当性を著しく向上させることが示された。
関連論文リスト
- PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement [89.35154754765502]
PhyScensisは物理エンジンを動力とするエージェントベースのフレームワークで、物理的に可視なシーン構成を生成する。
本フレームワークは,微粒なテキスト記述や数値パラメータに対する強い制御性を保っている。
実験の結果,本手法はシーンの複雑さ,視覚的品質,身体的精度において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2026-02-16T17:55:25Z) - Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - Vision-based 3D Semantic Scene Completion via Capture Dynamic Representations [37.61183525419993]
動的表現のキャプチャによる視覚に基づくロバストなセマンティックなシーンコンプリートを提案する。
マルチモーダルな大規模モデルを用いて2次元的意味論を抽出し,それらを3次元空間に整列させる。
シーン情報を動的・静的な特徴に分離するために,単眼・立体的深度の特徴を利用する。
論文 参考訳(メタデータ) (2025-03-08T13:49:43Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - Efficient Physics Simulation for 3D Scenes via MLLM-Guided Gaussian Splatting [32.846428862045634]
Sim Anythingは、静的な3Dオブジェクトにインタラクティブなダイナミクスを与える物理ベースのアプローチである。
人間の視覚的推論に触発されて,MLLMに基づく物理特性知覚を提案する。
また、物理幾何学的適応サンプリングを用いて粒子をサンプリングして、オープンワールドシーンでオブジェクトをシミュレートする。
論文 参考訳(メタデータ) (2024-11-19T12:52:21Z) - Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in
Clutter [14.489086924126253]
本研究は, 乱雑な場面において, 自然言語で参照される物体のつかみポーズを予測する, つかみ合成を参照する作業に焦点をあてる。
既存のアプローチでは、参照対象をまずセグメント化し、適切な把握を提案し、自然屋内シーンの複雑さを捉えないプライベートデータセットやシミュレータで評価される。
本稿では,CLIPの視覚的接地機能を利用して,画像とテキストのペアから直接合成を学習する新しいエンド・ツー・エンド・モデル(CROG)を提案する。
論文 参考訳(メタデータ) (2023-11-09T22:55:10Z) - Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model
Alignments [81.38641691636847]
エンボディエージェントの観点から,シーン再構築の問題を再考する。
rgb-dデータストリームを用いてインタラクティブシーンを再構築する。
この再構成されたシーンは、密集したパノプティカルマップのオブジェクトメッシュを、部分ベースのCADモデルに置き換える。
論文 参考訳(メタデータ) (2021-03-30T05:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。