論文の概要: SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens
- arxiv url: http://arxiv.org/abs/2602.20476v1
- Date: Tue, 24 Feb 2026 02:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.577262
- Title: SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens
- Title(参考訳): SceMoS:ジオメトリグラウンドド・トークンの計画によるシーン認識型3次元人体動作合成
- Authors: Anindita Ghosh, Vladislav Golyanik, Taku Komura, Philipp Slusallek, Christian Theobalt, Rishabh Dabral,
- Abstract要約: SceMoSはシーン対応モーション合成フレームワークである。
軽量な2Dキューを使用して、グローバルプランニングをローカル実行から切り離す。
SceMoSはTRUMANSベンチマークで最先端のモーションリアリズムと接触精度を達成する。
- 参考スコア(独自算出の注目度): 89.05195827071582
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Synthesizing text-driven 3D human motion within realistic scenes requires learning both semantic intent ("walk to the couch") and physical feasibility (e.g., avoiding collisions). Current methods use generative frameworks that simultaneously learn high-level planning and low-level contact reasoning, and rely on computationally expensive 3D scene data such as point clouds or voxel occupancy grids. We propose SceMoS, a scene-aware motion synthesis framework that shows that structured 2D scene representations can serve as a powerful alternative to full 3D supervision in physically grounded motion synthesis. SceMoS disentangles global planning from local execution using lightweight 2D cues and relying on (1) a text-conditioned autoregressive global motion planner that operates on a bird's-eye-view (BEV) image rendered from an elevated corner of the scene, encoded with DINOv2 features, as the scene representation, and (2) a geometry-grounded motion tokenizer trained via a conditional VQ-VAE, that uses 2D local scene heightmap, thus embedding surface physics directly into a discrete vocabulary. This 2D factorization reaches an efficiency-fidelity trade-off: BEV semantics capture spatial layout and affordance for global reasoning, while local heightmaps enforce fine-grained physical adherence without full 3D volumetric reasoning. SceMoS achieves state-of-the-art motion realism and contact accuracy on the TRUMANS benchmark, reducing the number of trainable parameters for scene encoding by over 50%, showing that 2D scene cues can effectively ground 3D human-scene interaction.
- Abstract(参考訳): 現実的なシーンでテキスト駆動の人間の動きを合成するには、意味的な意図("walk to the couch")と物理的実現可能性(例えば衝突を避ける)の両方を学ぶ必要がある。
現在の手法では、高レベルの計画と低レベルの接触推論を同時に学習する生成フレームワークを使用し、ポイントクラウドやボクセル占有グリッドのような計算コストの高い3Dシーンデータに依存している。
本研究では,シーン認識型モーション合成フレームワークであるSceMoSを提案する。
SceMoSは、軽量な2Dキューを用いて局所的な計画から切り離され、(1)シーンの高角から描画された鳥の目視(BEV)画像を操作し、シーン表現としてDINOv2特徴を符号化したテキスト条件付き自己回帰的グローバルモーションプランナー、(2)条件付きVQ-VAEを用いて訓練された幾何学的グラウンドモーショントークンーで、2Dローカルなシーンの高さマップを使用し、表面物理を直接離散語彙に埋め込む。
BEVセマンティクスは空間的レイアウトとグローバルな推論の余裕を捉え、局所的なハイトマップは完全な3Dボリューム推論を行なわずに微細な物理アテンデンスを強制する。
SceMoSは、TRUMANSベンチマークで最先端のモーションリアリズムと接触精度を実現し、シーンエンコーディングのためのトレーニング可能なパラメータの数を50%以上削減し、2Dシーンキューが効果的に3Dシーンインタラクションを基礎にすることができることを示した。
関連論文リスト
- RoamScene3D: Immersive Text-to-3D Scene Generation via Adaptive Object-aware Roaming [79.81527946524098]
RoamScene3Dはセマンティックガイダンスと空間生成のギャップを埋める新しいフレームワークである。
我々は、オブジェクト関係を符号化するシーングラフを構築するために、視覚言語モデル(VLM)を用いる。
静的な2Dプリミティブの制約を軽減するため、合成パノラマデータセットに微調整されたモーションインジェクトインペインティングモデルを導入する。
論文 参考訳(メタデータ) (2026-01-27T10:10:55Z) - MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling [21.1274747033854]
キャラクタビデオ合成は、ライフライクなシーン内でアニマタブルなキャラクターのリアルなビデオを作成することを目的としている。
Miloは、文字ビデオを制御可能な属性で合成できる新しいフレームワークである。
Miloは、任意のキャラクタへの高度なスケーラビリティ、新しい3Dモーションへの一般化、インタラクティブな現実世界のシーンへの適用性を実現している。
論文 参考訳(メタデータ) (2024-09-24T15:00:07Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。