論文の概要: Learning Temporal 3D Semantic Scene Completion via Optical Flow Guidance
- arxiv url: http://arxiv.org/abs/2502.14520v1
- Date: Thu, 20 Feb 2025 12:52:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:27:19.202794
- Title: Learning Temporal 3D Semantic Scene Completion via Optical Flow Guidance
- Title(参考訳): オプティカルフロー誘導による時間的3次元セマンティックシーン補完の学習
- Authors: Meng Wang, Fan Wu, Ruihui Li, Yunchuan Qin, Zhuo Tang, Kenli Li,
- Abstract要約: 3Dセマンティックシーンコンプリート(SSC)は、自律運転知覚のための総合的なシーン幾何学と意味論を提供する。
既存のSSC手法は、現在のフレームからスパース情報をキャプチャすることや、複数フレームの時間的特徴を経時的に積み重ねることに限られる。
本稿では, 時間的SSC手法FlowScene: Learning Temporal 3D Semantic Scene Completion through Optical Flow Guidanceを提案する。
- 参考スコア(独自算出の注目度): 37.61183525419993
- License:
- Abstract: 3D Semantic Scene Completion (SSC) provides comprehensive scene geometry and semantics for autonomous driving perception, which is crucial for enabling accurate and reliable decision-making. However, existing SSC methods are limited to capturing sparse information from the current frame or naively stacking multi-frame temporal features, thereby failing to acquire effective scene context. These approaches ignore critical motion dynamics and struggle to achieve temporal consistency. To address the above challenges, we propose a novel temporal SSC method FlowScene: Learning Temporal 3D Semantic Scene Completion via Optical Flow Guidance. By leveraging optical flow, FlowScene can integrate motion, different viewpoints, occlusions, and other contextual cues, thereby significantly improving the accuracy of 3D scene completion. Specifically, our framework introduces two key components: (1) a Flow-Guided Temporal Aggregation module that aligns and aggregates temporal features using optical flow, capturing motion-aware context and deformable structures; and (2) an Occlusion-Guided Voxel Refinement module that injects occlusion masks and temporally aggregated features into 3D voxel space, adaptively refining voxel representations for explicit geometric modeling. Experimental results demonstrate that FlowScene achieves state-of-the-art performance on the SemanticKITTI and SSCBench-KITTI-360 benchmarks.
- Abstract(参考訳): 3Dセマンティックシーンコンプリート(SSC)は、自律運転認識のための総合的なシーン幾何学と意味論を提供する。
しかし、既存のSSC手法は、現在のフレームからスパース情報をキャプチャすることや、複数フレームの時間的特徴をネイティブに積み重ねることに制限されており、効果的なシーンコンテキストを得ることができない。
これらのアプローチは、臨界運動力学を無視し、時間的一貫性を達成するのに苦労する。
上記の課題に対処するために,光学的フロー誘導による時間的3次元セマンティックシーン補完を学習する,新しい時間的SSC手法FlowSceneを提案する。
光学フローを活用することで、FlowSceneはモーション、異なる視点、オクルージョン、その他の文脈的手がかりを統合することができ、3Dシーン完了の精度を大幅に向上させることができる。
具体的には,(1)光学的フローを用いて時間的特徴を調整・集約するフローガイド型テンポラルアグリゲーションモジュール,(2)オクルージョンマスクと時間的に集約された特徴を3次元ボクセル空間に注入するオクルージョンガイド型ボクセルリファインメントモジュール,そして明示的な幾何学的モデリングのために適応的にボクセル表現を精製する。
実験の結果,FlowSceneはSemanticKITTIとSSCBench-KITTI-360ベンチマークで最先端の性能を達成した。
関連論文リスト
- Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction [14.866463843514156]
Occ Flowは、カメラ入力のみを使用して、関節の3D占有率と占有率の予測を行う最初の自己教師型作業である。
我々のアプローチは、動的オブジェクトの依存関係をキャプチャするために、新しい注意に基づく時間融合モジュールを組み込んでいる。
本手法は3次元容積流れ場に微分可能レンダリングを拡張する。
論文 参考訳(メタデータ) (2024-07-10T12:20:11Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Self-Supervised Monocular Scene Flow Estimation [27.477810324117016]
本稿では,競争精度とリアルタイム性能を両立させる新しい単眼シーンフロー法を提案する。
逆問題の観点から、深度と3次元運動を同時に推定する単一畳み込みニューラルネットワーク(CNN)を設計する。
論文 参考訳(メタデータ) (2020-04-08T17:55:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。