論文の概要: FlowSSC: Universal Generative Monocular Semantic Scene Completion via One-Step Latent Diffusion
- arxiv url: http://arxiv.org/abs/2601.15250v1
- Date: Wed, 21 Jan 2026 18:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.494493
- Title: FlowSSC: Universal Generative Monocular Semantic Scene Completion via One-Step Latent Diffusion
- Title(参考訳): FlowSSC: ワンステップ遅延拡散による一眼的一眼的シーンコンプリート
- Authors: Zichen Xi, Hao-Xiang Chen, Nan Xue, Hongyu Yan, Qi-Yuan Feng, Levent Burak Kara, Joaquim Jorge, Qun-Ce Xu,
- Abstract要約: FlowSSCは、セマンティックシーン補完に直接適用される最初の生成フレームワークである。
品質を損なうことなくリアルタイムな推論を実現するために,ショートカットフローマッチングを導入する。
提案手法は,1ステップで高忠実度生成を実現するためのショートカット機構を利用して,自律システムへの実用的な展開を実現する。
- 参考スコア(独自算出の注目度): 7.222522567077674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic Scene Completion (SSC) from monocular RGB images is a fundamental yet challenging task due to the inherent ambiguity of inferring occluded 3D geometry from a single view. While feed-forward methods have made progress, they often struggle to generate plausible details in occluded regions and preserve the fundamental spatial relationships of objects. Such accurate generative reasoning capability for the entire 3D space is critical in real-world applications. In this paper, we present FlowSSC, the first generative framework applied directly to monocular semantic scene completion. FlowSSC treats the SSC task as a conditional generation problem and can seamlessly integrate with existing feed-forward SSC methods to significantly boost their performance. To achieve real-time inference without compromising quality, we introduce Shortcut Flow-matching that operates in a compact triplane latent space. Unlike standard diffusion models that require hundreds of steps, our method utilizes a shortcut mechanism to achieve high-fidelity generation in a single step, enabling practical deployment in autonomous systems. Extensive experiments on SemanticKITTI demonstrate that FlowSSC achieves state-of-the-art performance, significantly outperforming existing baselines.
- Abstract(参考訳): 単眼RGB画像からのSSC(Semantic Scene Completion)は、1つの視点から隠蔽された3次元幾何学を推定する固有の曖昧さのため、基本的な課題である。
フィードフォワード法は進歩してきたが、隠蔽された領域の可視的な詳細を生成し、オブジェクトの基本的な空間的関係を維持するのに苦労することが多い。
3D空間全体の正確な生成的推論能力は、現実世界の応用において重要である。
本稿では,単分子的セマンティックシーン補完に直接適用した最初の生成フレームワークであるFlowSSCを提案する。
FlowSSCは、SSCタスクを条件付き生成問題として扱い、既存のフィードフォワードSSCメソッドとシームレスに統合してパフォーマンスを大幅に向上させることができる。
品質を損なうことなくリアルタイムな推論を実現するために,コンパクトな三面体ラテント空間で動作するショートカットフローマッチングを導入する。
何百段ものステップを必要とする標準拡散モデルとは異なり,本手法は1ステップで高忠実度生成を実現するためのショートカット機構を利用して,自律システムへの実用的な展開を実現する。
SemanticKITTIに関する大規模な実験は、FlowSSCが最先端のパフォーマンスを実現し、既存のベースラインを大幅に上回っていることを示している。
関連論文リスト
- StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - SPHERE: Semantic-PHysical Engaged REpresentation for 3D Semantic Scene Completion [52.959716866316604]
カメラベース3Dセマンティックシーンコンプリート(SSC)は自動運転システムにおいて重要な課題である。
本稿では,SPHERE (Semantic-PHysical Engaged Representation) を提案する。
SPHEREは、意味情報と物理的情報の共同利用のためのボクセルとガウス表現を統合している。
論文 参考訳(メタデータ) (2025-09-14T09:07:41Z) - One Step Closer: Creating the Future to Boost Monocular Semantic Scene Completion [3.664655957801223]
現実世界の交通シナリオでは、視覚的な3Dシーンのかなりの部分は、カメラの視野の外側に留まっている。
本稿では、擬似未来フレーム予測を利用して、モデルの有効性を拡大する新しい時間的SSCフレームワークであるCreating the Future SSCを提案する。
提案手法は、ポーズと深さを組み合わせて正確な3次元対応を確立し、3次元空間における過去、現在、予測される将来のフレームの幾何学的に一貫性のある融合を可能にする。
論文 参考訳(メタデータ) (2025-07-18T10:24:58Z) - Learning Temporal 3D Semantic Scene Completion via Optical Flow Guidance [42.815766778681144]
3Dセマンティックシーンコンプリート(SSC)は、自律運転知覚のための総合的なシーン幾何学と意味論を提供する。
既存のSSC手法は、現在のフレームからスパース情報をキャプチャすることや、複数フレームの時間的特徴を経時的に積み重ねることに限られる。
本稿では, 時間的SSC手法FlowScene: Learning Temporal 3D Semantic Scene Completion through Optical Flow Guidanceを提案する。
論文 参考訳(メタデータ) (2025-02-20T12:52:36Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Camera-based 3D Semantic Scene Completion with Sparse Guidance Network [18.415854443539786]
本稿では,SGNと呼ばれるカメラベースのセマンティックシーン補完フレームワークを提案する。
SGNは空間幾何学的手がかりに基づいてセマンティック・アウェア・シード・ボクセルからシーン全体へのセマンティクスの伝播を行う。
実験の結果,既存の最先端手法よりもSGNの方が優れていることが示された。
論文 参考訳(メタデータ) (2023-12-10T04:17:27Z) - SSC-RS: Elevate LiDAR Semantic Scene Completion with Representation
Separation and BEV Fusion [17.459062337718677]
本稿では,表現分離とBEV融合の観点から,屋外SSCを解くことを提案する。
本稿では,SSC-RSと命名されたネットワークについて述べる。このネットワークは,意味的および幾何学的表現の学習手順を明示的に切り離すために,深い監督を伴う分岐を用いている。
提案したAdaptive Representation Fusion (ARF) モジュールを備えたBEV融合ネットワークを用いて, マルチスケール特徴を効果的かつ効率的に集約する。
論文 参考訳(メタデータ) (2023-06-27T10:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。