論文の概要: SceneReVis: A Self-Reflective Vision-Grounded Framework for 3D Indoor Scene Synthesis via Multi-turn RL
- arxiv url: http://arxiv.org/abs/2602.09432v1
- Date: Tue, 10 Feb 2026 05:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.393103
- Title: SceneReVis: A Self-Reflective Vision-Grounded Framework for 3D Indoor Scene Synthesis via Multi-turn RL
- Title(参考訳): SceneReVis: マルチターンRLによる3次元室内シーン合成のための自己反射型ビジョングラウンドフレームワーク
- Authors: Yang Zhao, Shizhao Sun, Meisheng Zhang, Yingdong Shi, Xubo Yang, Jiang Bian,
- Abstract要約: 現行のワンパス3Dシーン合成法は、議論的推論の欠如により、衝突などの空間幻覚に悩まされることが多い。
SceneReVisは、空間的衝突を明示的にインターセプトし解決するために反復的な診断と対処のループを利用する視覚的な自己回帰フレームワークである。
そこで我々は,2段階のトレーニングレシピを提案し,モデルからアクティブな空間プランナへと進化させた。
- 参考スコア(独自算出の注目度): 18.967658906855466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current one-pass 3D scene synthesis methods often suffer from spatial hallucinations, such as collisions, due to a lack of deliberative reasoning. To bridge this gap, we introduce SceneReVis, a vision-grounded self-reflection framework that employs an iterative ``diagnose-and-act'' loop to explicitly intercept and resolve spatial conflicts using multi-modal feedback. To support this step-wise paradigm, we construct SceneChain-12k, a large-scale dataset of causal construction trajectories derived through a novel reverse engineering pipeline. We further propose a two-stage training recipe that transitions from Supervised Fine-Tuning to Agentic Reinforcement Learning, evolving the model into an active spatial planner. Extensive experiments demonstrate that SceneReVis achieves state-of-the-art performance in high-fidelity generation and goal-oriented optimization, with robust generalization to long-tail domains.
- Abstract(参考訳): 現行のワンパス3Dシーン合成法は、議論的推論の欠如により、衝突などの空間幻覚に悩まされることが多い。
このギャップを埋めるために、マルチモーダルフィードバックを用いて空間的衝突を明示的にインターセプトし解決するために、反復的な ``diagnose-and-act'' ループを用いた視覚的自己回帰フレームワークであるSceneReVisを紹介した。
このステップワイズパラダイムをサポートするために,新しいリバースエンジニアリングパイプラインによって導出される因果構成軌道の大規模データセットであるSceneChain-12kを構築した。
さらに,教師付きファインチューニングからエージェント強化学習へ移行し,モデルをアクティブな空間プランナーに進化させる2段階のトレーニングレシピを提案する。
大規模な実験により、SceneReVisは高忠実度生成と目標指向の最適化において最先端の性能を達成し、ロングテール領域へのロバストな一般化を実現している。
関連論文リスト
- One-Shot Refiner: Boosting Feed-forward Novel View Synthesis via One-Step Diffusion [57.824020826432815]
スパース画像から高忠実性ノベルビュー合成(NVS)を実現するための新しいフレームワークを提案する。
ViTバックボーンによって制限されることなく高解像度画像を処理できるデュアルドメイン詳細知覚モジュールを設計する。
我々は,修復過程において高周波の詳細を保存できる特徴誘導拡散ネットワークを開発した。
論文 参考訳(メタデータ) (2026-01-20T17:11:55Z) - Follow My Hold: Hand-Object Interaction Reconstruction through Geometric Guidance [61.41904916189093]
単眼RGB画像から手持ち物体の3次元形状を再構成する拡散法に基づく新しいフレームワークを提案する。
我々は手オブジェクト間相互作用を幾何学的ガイダンスとして使用し、手オブジェクト間相互作用を確実にする。
論文 参考訳(メタデータ) (2025-08-25T17:11:53Z) - SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。
SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。
トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文 参考訳(メタデータ) (2025-05-17T13:05:13Z) - OccScene: Semantic Occupancy-based Cross-task Mutual Learning for 3D Scene Generation [64.77193457268886]
OccSceneは、きめ細かい3D認識と高品質な生成を統一されたフレームワークに統合する。
OccSceneはテキストプロンプトによってのみ、新しい一貫性のある3Dリアルシーンを生成する。
実験により,OccSceneは屋内および屋外の広いシナリオにおいて,リアルな3Dシーン生成を実現することが示された。
論文 参考訳(メタデータ) (2024-12-15T13:26:51Z) - Omni-Scene: Omni-Gaussian Representation for Ego-Centric Sparse-View Scene Reconstruction [9.116550622312362]
自律運転のシナリオでは、より実践的なパラダイムはエゴ中心の再構築であり、最小のクロスビューオーバーラップが特徴である。
本稿では,異なる表現の詳細な分析を行い,ネットワーク設計に適したOmni-Gaussian表現を提案する。
実験の結果,エゴ中心の再構築において,この手法は最先端の手法であるピクセルSplatやMVSplatをはるかに上回ることがわかった。
論文 参考訳(メタデータ) (2024-12-09T07:48:15Z) - T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.05271859398779]
映像シーケンスにおける過渡的オブジェクトは、3Dシーン再構成の品質を著しく低下させる可能性がある。
我々は,ガウススプラッティングを用いた3次元再構成において,過渡的障害を頑健に除去する新しいフレームワークT-3DGSを提案する。
論文 参考訳(メタデータ) (2024-11-29T07:45:24Z) - VortSDF: 3D Modeling with Centroidal Voronoi Tesselation on Signed Distance Field [5.573454319150408]
四面体グリッド上での3次元形状特性を推定するために,明示的なSDFフィールドと浅いカラーネットワークを組み合わせた体積最適化フレームワークを提案する。
Chamfer統計による実験結果は、オブジェクト、オープンシーン、人間などの様々なシナリオにおいて、前例のない復元品質でこのアプローチを検証する。
論文 参考訳(メタデータ) (2024-07-29T09:46:39Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。