論文の概要: CurriFlow: Curriculum-Guided Depth Fusion with Optical Flow-Based Temporal Alignment for 3D Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2510.12362v1
- Date: Tue, 14 Oct 2025 10:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.27748
- Title: CurriFlow: Curriculum-Guided Depth Fusion with Optical Flow-Based Temporal Alignment for 3D Semantic Scene Completion
- Title(参考訳): CurriFlow:3次元シーンコンプリートのための光学的フローベース時間アライメントを用いたカリキュラムガイド深部固定法
- Authors: Jinzhou Lin, Jie Zhou, Wenhao Xu, Rongtao Xu, Changwei Wang, Shunpeng Chen, Kexue Fu, Yihua Shao, Li Guo, Shibiao Xu,
- Abstract要約: CurriFlowは、光学フローに基づく時間的アライメントとカリキュラム誘導深度融合を統合する、新しいセマンティック占有予測フレームワークである。
我々は,CurriFlowが16.9の平均IoUで最先端性能を実現し,カメラによる3Dセマンティックシーンの完成のための動作誘導設計とカリキュラム認識設計の有効性を検証した。
- 参考スコア(独自算出の注目度): 47.47320142811049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic Scene Completion (SSC) aims to infer complete 3D geometry and semantics from monocular images, serving as a crucial capability for camera-based perception in autonomous driving. However, existing SSC methods relying on temporal stacking or depth projection often lack explicit motion reasoning and struggle with occlusions and noisy depth supervision. We propose CurriFlow, a novel semantic occupancy prediction framework that integrates optical flow-based temporal alignment with curriculum-guided depth fusion. CurriFlow employs a multi-level fusion strategy to align segmentation, visual, and depth features across frames using pre-trained optical flow, thereby improving temporal consistency and dynamic object understanding. To enhance geometric robustness, a curriculum learning mechanism progressively transitions from sparse yet accurate LiDAR depth to dense but noisy stereo depth during training, ensuring stable optimization and seamless adaptation to real-world deployment. Furthermore, semantic priors from the Segment Anything Model (SAM) provide category-agnostic supervision, strengthening voxel-level semantic learning and spatial consistency. Experiments on the SemanticKITTI benchmark demonstrate that CurriFlow achieves state-of-the-art performance with a mean IoU of 16.9, validating the effectiveness of our motion-guided and curriculum-aware design for camera-based 3D semantic scene completion.
- Abstract(参考訳): セマンティックシーンコンプリート(SSC)は、単眼画像から完全な3次元幾何学と意味論を推論することを目的としており、自律運転におけるカメラベースの認識の重要な機能として機能する。
しかし、既存のSSC法では、時間的積み重ねや深さ予測に依存しており、明示的な動き推論が欠如しており、閉塞やノイズの多い深度監視に苦慮していることが多い。
本稿では,光学フローに基づく時間的アライメントとカリキュラム誘導深度融合を統合した,新しいセマンティック占有予測フレームワークであるCurriFlowを提案する。
CurriFlowはマルチレベル融合戦略を用いて、事前訓練された光学フローを用いてフレーム間のセグメンテーション、視覚、深度の特徴を整列し、時間的一貫性と動的オブジェクト理解を改善する。
幾何学的ロバスト性を高めるために、カリキュラム学習機構は、スパースで正確なLiDAR深度から、トレーニング中に密度が高くてノイズの多いステレオ深度へと徐々に移行し、安定した最適化と実世界の展開へのシームレスな適応を確保する。
さらに、Segment Anything Model (SAM) のセマンティック先行は、カテゴリーに依存しない監視、ボクセルレベルのセマンティックラーニングの強化、空間的一貫性を提供する。
SemanticKITTIベンチマークの実験により、CurriFlowは16.9のIoUで最先端の性能を達成し、カメラによる3Dセマンティックシーンの完成のための動き誘導設計とカリキュラム認識設計の有効性を検証した。
関連論文リスト
- UM-Depth : Uncertainty Masked Self-Supervised Monocular Depth Estimation with Visual Odometry [3.8323580808203785]
我々は,動き認識と不確実性認識を組み合わせたフレームワークであるUM-Depthを導入し,深度精度を向上する。
トレーニングパイプラインとネットワークアーキテクチャの両方に不確実性推定を組み込む教師訓練戦略を開発する。
UM-Depthは、KITTIデータセット上で、自己教師付き深度とポーズ推定の両方で最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-09-17T05:51:07Z) - SPHERE: Semantic-PHysical Engaged REpresentation for 3D Semantic Scene Completion [52.959716866316604]
カメラベース3Dセマンティックシーンコンプリート(SSC)は自動運転システムにおいて重要な課題である。
本稿では,SPHERE (Semantic-PHysical Engaged Representation) を提案する。
SPHEREは、意味情報と物理的情報の共同利用のためのボクセルとガウス表現を統合している。
論文 参考訳(メタデータ) (2025-09-14T09:07:41Z) - Learning Temporal 3D Semantic Scene Completion via Optical Flow Guidance [37.61183525419993]
3Dセマンティックシーンコンプリート(SSC)は、自律運転知覚のための総合的なシーン幾何学と意味論を提供する。
既存のSSC手法は、現在のフレームからスパース情報をキャプチャすることや、複数フレームの時間的特徴を経時的に積み重ねることに限られる。
本稿では, 時間的SSC手法FlowScene: Learning Temporal 3D Semantic Scene Completion through Optical Flow Guidanceを提案する。
論文 参考訳(メタデータ) (2025-02-20T12:52:36Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - DepthSSC: Monocular 3D Semantic Scene Completion via Depth-Spatial Alignment and Voxel Adaptation [2.949710700293865]
単眼カメラのみを用いたセマンティックシーン補完手法DepthSSCを提案する。
DepthSSCがGeometric-Aware Voxelization (GAV)とSpatial Transformation Graph Fusion (ST-GF)モジュールを統合
DepthSSCは複雑な3次元構造を効果的に捉え、最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T01:47:51Z) - Learning Monocular Depth in Dynamic Environment via Context-aware
Temporal Attention [9.837958401514141]
マルチフレーム単眼深度推定のためのコンテキスト対応テンポラルアテンション誘導ネットワークであるCTA-Depthを提案する。
提案手法は,3つのベンチマークデータセットに対する最先端アプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-05-12T11:48:32Z) - Self-Supervised Joint Learning Framework of Depth Estimation via
Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。
提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文 参考訳(メタデータ) (2020-06-17T13:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。