論文の概要: OccFlowNet: Towards Self-supervised Occupancy Estimation via
Differentiable Rendering and Occupancy Flow
- arxiv url: http://arxiv.org/abs/2402.12792v1
- Date: Tue, 20 Feb 2024 08:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 16:49:34.926904
- Title: OccFlowNet: Towards Self-supervised Occupancy Estimation via
Differentiable Rendering and Occupancy Flow
- Title(参考訳): OccFlowNet: 微分レンダリングとOccupancy Flowによる自己教師型職業推定を目指して
- Authors: Simon Boeder, Fabian Gigengack, Benjamin Risse
- Abstract要約: 本稿では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)による占有率推定手法を提案する。
深度とセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングには,可変ボリュームレンダリングを用いる。
- 参考スコア(独自算出の注目度): 0.6577148087211809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic occupancy has recently gained significant traction as a prominent 3D
scene representation. However, most existing methods rely on large and costly
datasets with fine-grained 3D voxel labels for training, which limits their
practicality and scalability, increasing the need for self-monitored learning
in this domain. In this work, we present a novel approach to occupancy
estimation inspired by neural radiance field (NeRF) using only 2D labels, which
are considerably easier to acquire. In particular, we employ differentiable
volumetric rendering to predict depth and semantic maps and train a 3D network
based on 2D supervision only. To enhance geometric accuracy and increase the
supervisory signal, we introduce temporal rendering of adjacent time steps.
Additionally, we introduce occupancy flow as a mechanism to handle dynamic
objects in the scene and ensure their temporal consistency. Through extensive
experimentation we demonstrate that 2D supervision only is sufficient to
achieve state-of-the-art performance compared to methods using 3D labels, while
outperforming concurrent 2D approaches. When combining 2D supervision with 3D
labels, temporal rendering and occupancy flow we outperform all previous
occupancy estimation models significantly. We conclude that the proposed
rendering supervision and occupancy flow advances occupancy estimation and
further bridges the gap towards self-supervised learning in this domain.
- Abstract(参考訳): セマンティックな占有感は近年,顕著な3Dシーン表現として注目されている。
しかし、既存のほとんどのメソッドは、トレーニング用にきめ細かい3Dボクセルラベルを持つ大規模でコストのかかるデータセットに依存しているため、実用性とスケーラビリティが制限され、この領域での自己監視学習の必要性が増している。
本研究では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)に触発された占有率推定手法を提案する。
特に,深度やセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングに,可変ボリュームレンダリングを用いる。
幾何学的精度を高め,監視信号を増やすため,隣接時間ステップの時間レンダリングを導入する。
さらに,シーン内の動的オブジェクトを処理し,その時間的一貫性を保証するメカニズムとして占有フローを導入する。
広範な実験を通じて,並列的な2dアプローチを上回りながら,3dラベルを用いた手法と比較して,最先端のパフォーマンスを実現するには2d監督だけで十分であることを実証した。
2次元監視と3次元ラベルを組み合わせると、時間的レンダリングと占有フローが従来の占有率推定モデルよりも大幅に優れる。
提案するレンダリング監督と占有フローは占有率の推定を前進させ,さらにこの領域における自己監督学習へのギャップを橋渡しする。
関連論文リスト
- 3D Vascular Segmentation Supervised by 2D Annotation of Maximum
Intensity Projection [33.34240545722551]
血管構造のセグメンテーションは、医学的分析と臨床応用において重要な役割を担っている。
既存の弱監督法は, スパース血管構造を扱う際に, 最適下肢機能を示した。
ここでは,3次元体積の次元を2次元画像に変換するために,最大強度投影(MIP)を用いる。
MIPを介して2D-3Dの深い特徴を融合してセグメンテーション性能を向上させる弱教師付きネットワークを導入する。
論文 参考訳(メタデータ) (2024-02-19T13:24:46Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [81.68608983602581]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering
Supervision [36.15913507034939]
RenderOccは2次元ラベルのみを用いて3次元占有モデルを訓練するための新しいパラダイムである。
具体的には、マルチビュー画像からNeRFスタイルの3Dボリューム表現を抽出する。
ボリュームレンダリング技術を用いて2次元レンダリングを確立することにより,2次元セマンティクスや深度ラベルから直接の3D監視を可能にする。
論文 参考訳(メタデータ) (2023-09-18T06:08:15Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - 3D Object Detection with a Self-supervised Lidar Scene Flow Backbone [10.341296683155973]
本稿では,下流3次元視覚タスクのための汎用クラウドバックボーンモデルを学習するために,自己指導型トレーニング戦略を提案する。
我々の主な貢献は、学習の流れと動きの表現を活用し、自己教師付きバックボーンと3D検出ヘッドを組み合わせることである。
KITTIとnuScenesベンチマークの実験により、提案した自己教師付き事前学習は3次元検出性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-05-02T07:53:29Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - Occlusion Guided Self-supervised Scene Flow Estimation on 3D Point
Clouds [4.518012967046983]
2つの連続時間フレーム間のスパースサンプリング点の3次元空間における流れを理解することは、現代の幾何学駆動系の中核石である。
本稿では,咬合下の3次元シーンフロー推定のための新しい自己教師あり学習法とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-04-10T09:55:19Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。