論文の概要: Boosting Self-Supervision for Single-View Scene Completion via Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2404.07933v1
- Date: Thu, 11 Apr 2024 17:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 13:01:15.237163
- Title: Boosting Self-Supervision for Single-View Scene Completion via Knowledge Distillation
- Title(参考訳): 知識蒸留による単一視点シーン補完のための自己スーパービジョンの強化
- Authors: Keonhee Han, Dominik Muhle, Felix Wimbauer, Daniel Cremers,
- Abstract要約: Structure from Motionを通して画像からシーン幾何学を推定することは、コンピュータビジョンにおける長年の根本的問題である。
ニューラルレイディアンス場(NeRF)の人気が高まり、暗黙の表現もシーン完了のために人気になった。
本稿では,複数の画像からシーン再構成を融合させ,その知識をより正確な単一視点のシーン再構成に変換することを提案する。
- 参考スコア(独自算出の注目度): 39.08243715525956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inferring scene geometry from images via Structure from Motion is a long-standing and fundamental problem in computer vision. While classical approaches and, more recently, depth map predictions only focus on the visible parts of a scene, the task of scene completion aims to reason about geometry even in occluded regions. With the popularity of neural radiance fields (NeRFs), implicit representations also became popular for scene completion by predicting so-called density fields. Unlike explicit approaches. e.g. voxel-based methods, density fields also allow for accurate depth prediction and novel-view synthesis via image-based rendering. In this work, we propose to fuse the scene reconstruction from multiple images and distill this knowledge into a more accurate single-view scene reconstruction. To this end, we propose Multi-View Behind the Scenes (MVBTS) to fuse density fields from multiple posed images, trained fully self-supervised only from image data. Using knowledge distillation, we use MVBTS to train a single-view scene completion network via direct supervision called KDBTS. It achieves state-of-the-art performance on occupancy prediction, especially in occluded regions.
- Abstract(参考訳): Structure from Motionを通して画像からシーン幾何学を推定することは、コンピュータビジョンにおける長年の根本的問題である。
古典的アプローチや近年では、深度マップの予測はシーンの可視部分のみに焦点をあてるが、シーン完了のタスクは、閉鎖された地域でも幾何学を推論することを目的としている。
ニューラルレイディアンス場 (NeRF) の普及に伴い, いわゆる密度場を予測することで, シーン完了に暗黙の表現が普及した。
明示的なアプローチとは違い。
密度場は、画像ベースのレンダリングによる正確な深度予測と新規ビュー合成を可能にする。
本研究では,複数の画像からシーン再構成を融合させ,その知識をより正確な単一視点のシーン再構成に融合させることを提案する。
この目的のために,複数の画像から密度場を融合させるためのMVBTS(Multi-View Behind the Scenes)を提案する。
知識蒸留を用いて, MVBTSを用いて, KDBTS と呼ばれる直接監督を通して, ワンビューシーン完了ネットワークを訓練する。
これは、特に閉鎖された地域で、占有率の予測に関する最先端のパフォーマンスを達成する。
関連論文リスト
- DoubleTake: Geometry Guided Depth Estimation [17.464549832122714]
RGB画像の列から深度を推定することは、基本的なコンピュータビジョンタスクである。
本稿では,現在のカメラ位置から深度マップとして描画された,ボリューム特徴と先行幾何学のヒントを組み合わせた再構成手法を提案する。
本手法は, オフライン・インクリメンタルな評価シナリオにおいて, 対話的な速度, 最先端の深度推定, および3次元シーンで動作可能であることを示す。
論文 参考訳(メタデータ) (2024-06-26T14:29:05Z) - Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement [32.335953514942474]
本稿では,3次元の高密度特徴場と2次元の特徴抽出器を併用してシーン表現を共同学習することを提案する。
暗黙の場に符号化された中間的幾何情報を活用するために、ボリュームレンダリングを通してシーンの基盤となる幾何学を学習し、特徴体を設計する。
次に、画像ベースの機能とレンダリングされたボリューム機能を調整することで、視覚的なローカライゼーションを実現する。
論文 参考訳(メタデータ) (2024-06-12T17:51:53Z) - Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning [119.99066522299309]
KYNは、各点の密度を予測するために意味的および空間的文脈を理由として、単一視点シーン再構築のための新しい手法である。
その結果,KYNは3次元点ごとの密度の予測よりも3次元形状回復を改善することがわかった。
我々は,KITTI-360のシーンとオブジェクトの再構成における最先端の成果を達成し,以前の作業と比べてゼロショットの一般化が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:59Z) - 3D Reconstruction with Generalizable Neural Fields using Scene Priors [71.37871576124789]
シーンプライオリティ(NFP)を取り入れたトレーニング一般化型ニューラルフィールドを提案する。
NFPネットワークは、任意のシングルビューRGB-D画像を符号付き距離と放射値にマッピングする。
融合モジュールを外した体積空間内の個々のフレームをマージすることにより、完全なシーンを再構築することができる。
論文 参考訳(メタデータ) (2023-09-26T18:01:02Z) - Behind the Scenes: Density Fields for Single View Reconstruction [63.40484647325238]
単一の画像から有意義な幾何学的シーン表現を推定することは、コンピュータビジョンの根本的な問題である。
本稿では,入力画像のフラストラム内のすべての位置を体積密度にマッピングする。
提案手法は,入力画像に隠された領域に対して有意な幾何を予測できることを示す。
論文 参考訳(メタデータ) (2023-01-18T17:24:01Z) - Deep scene-scale material estimation from multi-view indoor captures [9.232860902853048]
本稿では,物理的なレンダリングが可能なデジタルアセットを自動生成する学習ベースのアプローチを提案する。
提案手法は, 最寄りの解に比べて少ない時間で近似材料マップを生成する。
論文 参考訳(メタデータ) (2022-11-15T10:58:28Z) - IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。
レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文 参考訳(メタデータ) (2021-02-25T18:56:21Z) - Free View Synthesis [100.86844680362196]
本稿では,シーンの周囲に自由に分布する入力画像から新規なビュー合成手法を提案する。
本手法は,入力ビューの規則的な配置に依存しず,シーンを通して自由なカメラ運動のための画像の合成が可能であり,制約のない幾何学的レイアウトの一般的な場面で機能する。
論文 参考訳(メタデータ) (2020-08-12T18:16:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。