論文の概要: One Step Closer: Creating the Future to Boost Monocular Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2507.13801v1
- Date: Fri, 18 Jul 2025 10:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.257456
- Title: One Step Closer: Creating the Future to Boost Monocular Semantic Scene Completion
- Title(参考訳): ワンステップクローズ:モノクラーセマンティックなシーンの完成を後押しする未来を作る
- Authors: Haoang Lu, Yuanqi Su, Xiaoning Zhang, Hao Hu,
- Abstract要約: 現実世界の交通シナリオでは、視覚的な3Dシーンのかなりの部分は、カメラの視野の外側に留まっている。
本稿では、擬似未来フレーム予測を利用して、モデルの有効性を拡大する新しい時間的SSCフレームワークであるCreating the Future SSCを提案する。
提案手法は、ポーズと深さを組み合わせて正確な3次元対応を確立し、3次元空間における過去、現在、予測される将来のフレームの幾何学的に一貫性のある融合を可能にする。
- 参考スコア(独自算出の注目度): 3.664655957801223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, visual 3D Semantic Scene Completion (SSC) has emerged as a critical perception task for autonomous driving due to its ability to infer complete 3D scene layouts and semantics from single 2D images. However, in real-world traffic scenarios, a significant portion of the scene remains occluded or outside the camera's field of view -- a fundamental challenge that existing monocular SSC methods fail to address adequately. To overcome these limitations, we propose Creating the Future SSC (CF-SSC), a novel temporal SSC framework that leverages pseudo-future frame prediction to expand the model's effective perceptual range. Our approach combines poses and depths to establish accurate 3D correspondences, enabling geometrically-consistent fusion of past, present, and predicted future frames in 3D space. Unlike conventional methods that rely on simple feature stacking, our 3D-aware architecture achieves more robust scene completion by explicitly modeling spatial-temporal relationships. Comprehensive experiments on SemanticKITTI and SSCBench-KITTI-360 benchmarks demonstrate state-of-the-art performance, validating the effectiveness of our approach, highlighting our method's ability to improve occlusion reasoning and 3D scene completion accuracy.
- Abstract(参考訳): 近年、視覚的な3次元シーン補完(SSC)は、単一の2次元画像から完全な3次元シーンレイアウトとセマンティクスを推測する能力により、自律運転にとって重要な認識課題として浮上している。
しかし、現実世界の交通シナリオでは、シーンのかなりの部分はカメラの視野外またはカメラの視野外であり、既存のモノラルSSCメソッドが適切に対応できないという根本的な課題である。
このような制約を克服するために、疑似未来フレーム予測を利用してモデルの効果的な知覚範囲を拡大する新しい時間的SSCフレームワークであるCreating the Future SSC (CF-SSC)を提案する。
提案手法は、ポーズと深さを組み合わせて正確な3次元対応を確立し、3次元空間における過去、現在、予測される将来のフレームの幾何学的に一貫性のある融合を可能にする。
単純な特徴積み重ねに依存する従来の手法とは異なり、我々の3D対応アーキテクチャは空間的時間的関係を明示的にモデル化することにより、より堅牢なシーン補完を実現する。
SemanticKITTI と SSCBench-KITTI-360 ベンチマークの総合的な実験により,最先端性能が実証され,提案手法の有効性が検証され,オクルージョン推論と3次元シーン完了精度が向上することを示す。
関連論文リスト
- StarPose: 3D Human Pose Estimation via Spatial-Temporal Autoregressive Diffusion [29.682018018059043]
StarPoseは3次元人間のポーズ推定のための自己回帰拡散フレームワークである。
歴史的3Dポーズの予測と空間的物理的ガイダンスが組み込まれている。
人間の3次元ポーズ推定における精度と時間的一貫性を向上する。
論文 参考訳(メタデータ) (2025-08-04T04:50:05Z) - Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion [86.34232220368855]
1つの入力画像が与えられた場合、SceneDINOは3D幾何学と表現的な3DDINO特徴をフィードフォワードで推測する。
3Dと2Dの両方の教師なしシーン理解では、SceneDINOは最先端のセグメンテーション精度に達する。
論文 参考訳(メタデータ) (2025-07-08T17:59:50Z) - ACT-R: Adaptive Camera Trajectories for Single View 3D Reconstruction [12.942796503696194]
多視点合成に適応的な視点計画法を導入する。
我々は3次元コヒーレンスを高めるために時間的一貫性を活用して一連のビューを生成する。
本手法は, 未知のGSOデータセット上でのSOTA代替品の3次元再構成を改善する。
論文 参考訳(メタデータ) (2025-05-13T05:31:59Z) - Learning Temporal 3D Semantic Scene Completion via Optical Flow Guidance [37.61183525419993]
3Dセマンティックシーンコンプリート(SSC)は、自律運転知覚のための総合的なシーン幾何学と意味論を提供する。
既存のSSC手法は、現在のフレームからスパース情報をキャプチャすることや、複数フレームの時間的特徴を経時的に積み重ねることに限られる。
本稿では, 時間的SSC手法FlowScene: Learning Temporal 3D Semantic Scene Completion through Optical Flow Guidanceを提案する。
論文 参考訳(メタデータ) (2025-02-20T12:52:36Z) - OccScene: Semantic Occupancy-based Cross-task Mutual Learning for 3D Scene Generation [84.32038395034868]
OccSceneは、きめ細かい3D認識と高品質な生成を統一されたフレームワークに統合する。
OccSceneはテキストプロンプトによってのみ、新しい一貫性のある3Dリアルシーンを生成する。
実験により,OccSceneは屋内および屋外の広いシナリオにおいて,リアルな3Dシーン生成を実現することが示された。
論文 参考訳(メタデータ) (2024-12-15T13:26:51Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - A Spatiotemporal Approach to Tri-Perspective Representation for 3D Semantic Occupancy Prediction [6.527178779672975]
視覚に基づく3Dセマンティック占有予測は、LiDARベースのアプローチを好んで、ますます見落としている。
本研究では、時間的コヒーレントな3Dセマンティック占有度を予測するために設計されたトランスフォーマーアーキテクチャであるS2TPVFormerを紹介する。
論文 参考訳(メタデータ) (2024-01-24T20:06:59Z) - Camera-based 3D Semantic Scene Completion with Sparse Guidance Network [18.415854443539786]
本稿では,SGNと呼ばれるカメラベースのセマンティックシーン補完フレームワークを提案する。
SGNは空間幾何学的手がかりに基づいてセマンティック・アウェア・シード・ボクセルからシーン全体へのセマンティクスの伝播を行う。
実験の結果,既存の最先端手法よりもSGNの方が優れていることが示された。
論文 参考訳(メタデータ) (2023-12-10T04:17:27Z) - DepthSSC: Monocular 3D Semantic Scene Completion via Depth-Spatial Alignment and Voxel Adaptation [2.949710700293865]
単眼カメラのみを用いたセマンティックシーン補完手法DepthSSCを提案する。
DepthSSCがGeometric-Aware Voxelization (GAV)とSpatial Transformation Graph Fusion (ST-GF)モジュールを統合
DepthSSCは複雑な3次元構造を効果的に捉え、最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T01:47:51Z) - EvAC3D: From Event-based Apparent Contours to 3D Models via Continuous
Visual Hulls [46.94040300725127]
複数ビューからの3D再構成は、複数のアプリケーションへのデプロイで成功したコンピュータビジョンフィールドである。
イベントカメラの低消費電力化と遅延化の両面から,イベントカメラの利点を生かした3次元再構成の問題点を考察する。
オブジェクトの見かけの輪郭の幾何学を定義する新しいイベントベース表現であるApparent Contour Events (ACE)を提案する。
論文 参考訳(メタデータ) (2023-04-11T15:46:16Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。