論文の概要: OccFlowNet: Towards Self-supervised Occupancy Estimation via
Differentiable Rendering and Occupancy Flow
- arxiv url: http://arxiv.org/abs/2402.12792v1
- Date: Tue, 20 Feb 2024 08:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 16:49:34.926904
- Title: OccFlowNet: Towards Self-supervised Occupancy Estimation via
Differentiable Rendering and Occupancy Flow
- Title(参考訳): OccFlowNet: 微分レンダリングとOccupancy Flowによる自己教師型職業推定を目指して
- Authors: Simon Boeder, Fabian Gigengack, Benjamin Risse
- Abstract要約: 本稿では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)による占有率推定手法を提案する。
深度とセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングには,可変ボリュームレンダリングを用いる。
- 参考スコア(独自算出の注目度): 0.6577148087211809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic occupancy has recently gained significant traction as a prominent 3D
scene representation. However, most existing methods rely on large and costly
datasets with fine-grained 3D voxel labels for training, which limits their
practicality and scalability, increasing the need for self-monitored learning
in this domain. In this work, we present a novel approach to occupancy
estimation inspired by neural radiance field (NeRF) using only 2D labels, which
are considerably easier to acquire. In particular, we employ differentiable
volumetric rendering to predict depth and semantic maps and train a 3D network
based on 2D supervision only. To enhance geometric accuracy and increase the
supervisory signal, we introduce temporal rendering of adjacent time steps.
Additionally, we introduce occupancy flow as a mechanism to handle dynamic
objects in the scene and ensure their temporal consistency. Through extensive
experimentation we demonstrate that 2D supervision only is sufficient to
achieve state-of-the-art performance compared to methods using 3D labels, while
outperforming concurrent 2D approaches. When combining 2D supervision with 3D
labels, temporal rendering and occupancy flow we outperform all previous
occupancy estimation models significantly. We conclude that the proposed
rendering supervision and occupancy flow advances occupancy estimation and
further bridges the gap towards self-supervised learning in this domain.
- Abstract(参考訳): セマンティックな占有感は近年,顕著な3Dシーン表現として注目されている。
しかし、既存のほとんどのメソッドは、トレーニング用にきめ細かい3Dボクセルラベルを持つ大規模でコストのかかるデータセットに依存しているため、実用性とスケーラビリティが制限され、この領域での自己監視学習の必要性が増している。
本研究では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)に触発された占有率推定手法を提案する。
特に,深度やセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングに,可変ボリュームレンダリングを用いる。
幾何学的精度を高め,監視信号を増やすため,隣接時間ステップの時間レンダリングを導入する。
さらに,シーン内の動的オブジェクトを処理し,その時間的一貫性を保証するメカニズムとして占有フローを導入する。
広範な実験を通じて,並列的な2dアプローチを上回りながら,3dラベルを用いた手法と比較して,最先端のパフォーマンスを実現するには2d監督だけで十分であることを実証した。
2次元監視と3次元ラベルを組み合わせると、時間的レンダリングと占有フローが従来の占有率推定モデルよりも大幅に優れる。
提案するレンダリング監督と占有フローは占有率の推定を前進させ,さらにこの領域における自己監督学習へのギャップを橋渡しする。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [11.090775523892074]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction [14.866463843514156]
Occ Flowは、カメラ入力のみを使用して、関節の3D占有率と占有率の予測を行う最初の自己教師型作業である。
我々のアプローチは、動的オブジェクトの依存関係をキャプチャするために、新しい注意に基づく時間融合モジュールを組み込んでいる。
本手法は3次元容積流れ場に微分可能レンダリングを拡張する。
論文 参考訳(メタデータ) (2024-07-10T12:20:11Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering
Supervision [36.15913507034939]
RenderOccは2次元ラベルのみを用いて3次元占有モデルを訓練するための新しいパラダイムである。
具体的には、マルチビュー画像からNeRFスタイルの3Dボリューム表現を抽出する。
ボリュームレンダリング技術を用いて2次元レンダリングを確立することにより,2次元セマンティクスや深度ラベルから直接の3D監視を可能にする。
論文 参考訳(メタデータ) (2023-09-18T06:08:15Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - Occlusion Guided Self-supervised Scene Flow Estimation on 3D Point
Clouds [4.518012967046983]
2つの連続時間フレーム間のスパースサンプリング点の3次元空間における流れを理解することは、現代の幾何学駆動系の中核石である。
本稿では,咬合下の3次元シーンフロー推定のための新しい自己教師あり学習法とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-04-10T09:55:19Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。