Fugu-MT 論文翻訳(概要): MSI-NeRF: Linking Omni-Depth with View Synthesis through Multi-Sphere Image aided Generalizable Neural Radiance Field

論文の概要: MSI-NeRF: Linking Omni-Depth with View Synthesis through Multi-Sphere Image aided Generalizable Neural Radiance Field

arxiv url: http://arxiv.org/abs/2403.10840v1
Date: Sat, 16 Mar 2024 07:26:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 21:25:31.301498
Title: MSI-NeRF: Linking Omni-Depth with View Synthesis through Multi-Sphere Image aided Generalizable Neural Radiance Field
Title（参考訳）: MSI-NeRF: 一般化可能なニューラルラジアンス場を用いた多球画像による視線合成とオムニ奥行きのリンク
Authors: Dongyu Yan, Guanyu Huang, Fengyu Quan, Haoyao Chen,
Abstract要約: ディープラーニング全方位深度推定と新しいビューレンダリングを組み合わせたMSI-NeRFを提案する。本手法は, 目標視像を必要とせず, 深度データのみを用いて, 半自己監督方式で訓練する。
参考スコア（独自算出の注目度）: 1.3162012586770577
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Panoramic observation using fisheye cameras is significant in robot perception, reconstruction, and remote operation. However, panoramic images synthesized by traditional methods lack depth information and can only provide three degrees-of-freedom (3DoF) rotation rendering in virtual reality applications. To fully preserve and exploit the parallax information within the original fisheye cameras, we introduce MSI-NeRF, which combines deep learning omnidirectional depth estimation and novel view rendering. We first construct a multi-sphere image as a cost volume through feature extraction and warping of the input images. It is then processed by geometry and appearance decoders, respectively. Unlike methods that regress depth maps directly, we further build an implicit radiance field using spatial points and interpolated 3D feature vectors as input. In this way, we can simultaneously realize omnidirectional depth estimation and 6DoF view synthesis. Our method is trained in a semi-self-supervised manner. It does not require target view images and only uses depth data for supervision. Our network has the generalization ability to reconstruct unknown scenes efficiently using only four images. Experimental results show that our method outperforms existing methods in depth estimation and novel view synthesis tasks.
Abstract（参考訳）: 魚眼カメラを用いたパノラマ観察は,ロボットの知覚,再建,遠隔操作において重要である。しかし、従来の手法で合成されたパノラマ画像は深度情報を欠き、仮想現実アプリケーションでは3自由度(3DoF)回転レンダリングしか提供できない。魚眼カメラのパララックス情報を完全に保存し,活用するために,深層学習の全方位深度推定と新しいビューレンダリングを組み合わせたMSI-NeRFを導入する。まず,入力画像の特徴抽出とワープによって,コストボリュームとして多面体画像を構築する。その後、幾何デコーダと外見デコーダによって処理される。深度マップを直接回帰する手法とは異なり、空間点と補間された3次元特徴ベクトルを入力として用いた暗黙の放射場をさらに構築する。このようにして、全方位深度推定と6DoFビュー合成を同時に実現する。我々の手法は、半自制的な方法で訓練されている。対象のビューイメージは不要で、監視には深度データのみを使用する。ネットワークには,4つの画像のみを用いて未知のシーンを効率的に再構築する一般化機能がある。実験結果から,本手法は,深度推定や新しいビュー合成タスクにおいて,既存の手法よりも優れていることがわかった。

関連論文リスト

Visibility-Uncertainty-guided 3D Gaussian Inpainting via Scene Conceptional Learning [63.94919846010485]
3DGI)は、複数の入力ビューから補完的な視覚的・意味的手がかりを効果的に活用することが困難である。本稿では,異なる入力ビュー間での3Dポイントの視認性不確実性を計測し,それらを用いて3DGIを誘導する手法を提案する。 ViSibility-uncerTainty-guided 3DGIとシーンコンセプトAl学習を統合し,新しい3DGIフレームワークであるVISTAを構築した。
論文参考訳（メタデータ） (2025-04-23T06:21:11Z)
Incorporating dense metric depth into neural 3D representations for view synthesis and relighting [25.028859317188395]
ロボット応用では、密度の深い距離の深さをステレオで直接測定することができ、照明を制御できる。本研究は,ニューラルネットワークによる3次元表現のトレーニングに高密度な距離深度を組み込む手法を実証する。また、パイプラインに必要なデータを取得し、リライティングとビュー合成の結果を示すために開発されたマルチフラッシュステレオカメラシステムについても論じる。
論文参考訳（メタデータ） (2024-09-04T20:21:13Z)
DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文参考訳（メタデータ） (2024-06-17T21:15:13Z)
Calibrating Panoramic Depth Estimation for Practical Localization and Mapping [20.621442016969976]
周囲環境の絶対深度値は, 局所化, ナビゲーション, 3次元構造推定など, 様々な補助技術にとって重要な手がかりとなる。本研究では,パノラマ画像から推定される精度の高い深度が,3次元情報を必要とする幅広い下流タスクに対して,強力で軽量な入力として機能することを提案する。
論文参考訳（メタデータ） (2023-08-27T04:50:05Z)
Multi-Plane Neural Radiance Fields for Novel View Synthesis [5.478764356647437]
新しいビュー合成は、新しいカメラの視点からシーンのフレームを描画する、長年にわたる問題である。本研究では, 単面多面体ニューラル放射場の性能, 一般化, 効率について検討する。合成結果の改善と視聴範囲の拡大のために,複数のビューを受理する新しい多面体NeRFアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-03-03T06:32:55Z)
DARF: Depth-Aware Generalizable Neural Radiance Field [51.29437249009986]
本稿では,Depth-Aware Dynamic Smpling(DADS)戦略を用いたDARF(Depth-Aware Generalizable Neural Radiance Field)を提案する。筆者らのフレームワークは,数枚の入力画像で,画素レベルと幾何学レベルの両方の見えないシーンを推測する。 DARFは、最先端の一般化可能なNeRF法と比較して、レンダリング品質と深さ推定を改善しつつ、サンプルを50%削減する。
論文参考訳（メタデータ） (2022-12-05T14:00:59Z)
Vision Transformer for NeRF-Based View Synthesis from a Single Input Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文参考訳（メタデータ） (2022-07-12T17:52:04Z)
Remote Sensing Novel View Synthesis with Implicit Multiplane Representations [26.33490094119609]
暗黙的ニューラル表現の最近の進歩を活用して,新しいリモートセンシングビュー合成法を提案する。リモートセンシング画像のオーバーヘッドと遠距離イメージングを考慮し,暗黙のマルチプレーン画像(MPI)表現とディープニューラルネットワークを組み合わせることで,3次元空間を表現する。任意の新規ビューの画像は、再構成されたモデルに基づいて自由にレンダリングすることができる。
論文参考訳（メタデータ） (2022-05-18T13:03:55Z)
Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文参考訳（メタデータ） (2021-10-11T20:20:03Z)
MVSNeRF: Fast Generalizable Radiance Field Reconstruction from Multi-View Stereo [52.329580781898116]
MVSNeRFは、ビュー合成のための神経放射場を効率的に再構築できる新しいニューラルレンダリング手法である。高密度にキャプチャされた画像に対して,シーン毎の最適化を考慮に入れたニューラルネットワークの先行研究とは異なり,高速ネットワーク推論により,近傍の3つの入力ビューのみからラミアンスフィールドを再構成できる汎用ディープニューラルネットワークを提案する。
論文参考訳（メタデータ） (2021-03-29T13:15:23Z)
Neural Radiance Flow for 4D View Synthesis and Video Processing [59.9116932930108]
本稿では,RGB画像から動的シーンの4次元空間時空間表現を学習する手法を提案する。私たちのアプローチの鍵は、シーンの3D占有率、輝度、およびダイナミクスをキャプチャすることを学ぶ神経暗黙表現を使用することです。
論文参考訳（メタデータ） (2020-12-17T17:54:32Z)
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis [78.5281048849446]
本稿では,複雑なシーンの新たなビューを合成する手法を提案する。提案アルゴリズムは,完全接続型(非畳み込み型)深層ネットワークを用いたシーンを表現する。ボリュームレンダリングは自然に微分可能であるため、表現を最適化するのに必要な唯一の入力は、既知のカメラポーズを持つ画像の集合である。
論文参考訳（メタデータ） (2020-03-19T17:57:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。