論文の概要: Perceive-then-Plan: Layout-as-Policy for Monocular 3D Scene Layout Estimation
- arxiv url: http://arxiv.org/abs/2605.25326v1
- Date: Mon, 25 May 2026 01:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.227545
- Title: Perceive-then-Plan: Layout-as-Policy for Monocular 3D Scene Layout Estimation
- Title(参考訳): Perceive-then-Plan: Layout-as-Policy for Monocular 3D Scene Layout Estimation
- Authors: Junwei Zhou, Yu-Wing Tai,
- Abstract要約: 1つの画像から構造化された3Dシーンレイアウトを構築するには、物理的および空間的制約で視覚的な観察を調整する必要がある。
視覚言語モデルを用いた単眼3次元レイアウト推定を知覚的テーマプラン問題として定式化する。
本稿では,計画段階を政策学習問題とするレイアウト・アズ・ポリシィ(LaP)を提案する。
- 参考スコア(独自算出の注目度): 37.60004902691764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building structured 3D scene layouts from a single image requires reconciling visual observations with physical and spatial constraints, a challenge that is difficult to address with direct prediction alone. In this work, we formulate monocular 3D layout estimation as a perceive-then-plan problem with vision-language models, where a Perceiver first grounds the 3D objects and then a Planner iteratively refines the scene hypothesis through actions that improve physical plausibility while preserving consistency with the input image. We propose Layout-as-Policy (LaP), which casts the planning stage as a policy learning problem: 3D layouts are represented as structured states, and refined via discrete actions such as translation, rotation, and rescaling. Starting from an observation-aligned initialization with the geometry-enhanced Perceiver, the LaP Planner is trained to produce action sequences that progressively resolve geometric inconsistencies and enforce realistic spatial relations. To enable effective learning, we combine supervised trajectory initialization with preference-based optimization, allowing the model to learn corrective behaviors without requiring explicit reward engineering. This formulation transforms layout estimation from a one-shot prediction task into an iterative refinement process, enabling better handling of global constraints and complex object interactions. Experiments demonstrate that our approach produces layouts that are more physically coherent and better aligned with visual observations, while naturally supporting downstream tasks such as scene editing and manipulation.
- Abstract(参考訳): 1つの画像から構造化された3Dシーンレイアウトを構築するには、直接予測だけでは対処が難しい物理的および空間的制約と視覚的観察を整合させる必要がある。
本研究では,視覚言語モデルを用いたモノクル3次元レイアウト推定法について,まずパーシーバが3次元オブジェクトを接地し,次にプランナーが入力画像との整合性を保ちながら物理的妥当性を向上させる動作によりシーン仮説を反復的に洗練する手法を提案する。
提案するLayout-as-Policy (LaP) は,3次元レイアウトを構造化状態として表現し,翻訳,回転,再スケーリングといった個別の動作によって洗練する。
LaP Plannerは、幾何学的に強化されたPerceiverによる観測整列初期化から始まり、幾何的不整合を段階的に解決し、現実的な空間関係を強制するアクションシーケンスを生成するように訓練されている。
効果的な学習を実現するために,教師付き軌道の初期化と嗜好に基づく最適化を組み合わせることで,明示的な報酬工学を必要とせずにモデルが補正動作を学習できるようにする。
この定式化は、1ショットの予測タスクから反復的な改善プロセスへとレイアウト推定を変換し、大域的な制約や複雑なオブジェクトの相互作用をよりよく扱えるようにする。
実験により,シーン編集や操作などの下流タスクを自然にサポートしながら,より物理的に整合性があり,視覚的観察に整合したレイアウトを生成することができた。
関連論文リスト
- STABLE: Simulation-Ready Tabletop Layout Generation via a Semantics-Physics Dual System [76.3920413336862]
シミュレーション可能なテーブルトップシーン生成に適したセマンティックスと物理の二重システムであるSTABLEを提案する。
STABLEはセマンティック共振器と物理共振器の2つの相補的なモジュールで構成されている。
実験により、STABLEはタスク命令に厳密に準拠するシミュレーション可能なテーブルトップシーンを生成することができた。
論文 参考訳(メタデータ) (2026-05-15T16:18:42Z) - Perspective from a Higher Dimension: Can 3D Geometric Priors Help Visual Floorplan Localization? [8.82283453148819]
建物のフロアプランの自己ローカライズは研究者の興味を引き付けている。
フロアプランは建物の構造を最小限に表現するので、視覚的知覚とフロアプランの様相や幾何学的差異がこの課題に挑戦する。
既存の手法では、2次元幾何学的特徴とポーズフィルタを巧みに利用して有望な性能を実現する。
本稿では,2次元フロアプランの局所化問題を視覚的FLOCアルゴリズムに3次元幾何学的先行点を注入することにより高次元から考察する。
論文 参考訳(メタデータ) (2025-07-25T01:34:26Z) - Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model [15.892685514932323]
マルチビュールームレイアウト推定のための新しい手法であるPlain-DUSt3Rを提案する。
Plane-DUSt3RはDUSt3Rフレームワークを室内レイアウトデータセット(Structure3D)に組み込んで構造平面を推定する。
均一かつ同相な結果を生成することにより、Plane-DUSt3Rは、単一の後処理ステップと2D検出結果のみを用いて、部屋レイアウトの推定を可能にする。
論文 参考訳(メタデータ) (2025-02-24T02:14:19Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Exploiting Priors from 3D Diffusion Models for RGB-Based One-Shot View Planning [24.44253219419552]
本稿では,拡散モデルの強力な3次元生成能力を先行として活用したワンショットビュー計画手法を提案する。
シミュレーションと実環境における実験により, オブジェクト再構成の品質と移動コストのバランスが良好であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T14:21:49Z) - Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model
Alignments [81.38641691636847]
エンボディエージェントの観点から,シーン再構築の問題を再考する。
rgb-dデータストリームを用いてインタラクティブシーンを再構築する。
この再構成されたシーンは、密集したパノプティカルマップのオブジェクトメッシュを、部分ベースのCADモデルに置き換える。
論文 参考訳(メタデータ) (2021-03-30T05:56:58Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。