論文の概要: Novel View Synthesis from a Single RGBD Image for Indoor Scenes
- arxiv url: http://arxiv.org/abs/2311.01065v1
- Date: Thu, 2 Nov 2023 08:34:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 14:15:05.705451
- Title: Novel View Synthesis from a Single RGBD Image for Indoor Scenes
- Title(参考訳): 屋内シーンのための単一rgbd画像からの新たな視点合成
- Authors: Congrui Hetang, Yuping Wang
- Abstract要約: 単一RGBD(Red Green Blue-Depth)入力から新しいビューイメージを合成する手法を提案する。
本手法では,RGBD画像を点雲に変換し,異なる視点からレンダリングし,NVSタスクを画像翻訳問題に変換する。
- 参考スコア(独自算出の注目度): 4.292698270662031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose an approach for synthesizing novel view images from
a single RGBD (Red Green Blue-Depth) input. Novel view synthesis (NVS) is an
interesting computer vision task with extensive applications. Methods using
multiple images has been well-studied, exemplary ones include training
scene-specific Neural Radiance Fields (NeRF), or leveraging multi-view stereo
(MVS) and 3D rendering pipelines. However, both are either computationally
intensive or non-generalizable across different scenes, limiting their
practical value. Conversely, the depth information embedded in RGBD images
unlocks 3D potential from a singular view, simplifying NVS. The widespread
availability of compact, affordable stereo cameras, and even LiDARs in
contemporary devices like smartphones, makes capturing RGBD images more
accessible than ever. In our method, we convert an RGBD image into a point
cloud and render it from a different viewpoint, then formulate the NVS task
into an image translation problem. We leveraged generative adversarial networks
to style-transfer the rendered image, achieving a result similar to a
photograph taken from the new perspective. We explore both unsupervised
learning using CycleGAN and supervised learning with Pix2Pix, and demonstrate
the qualitative results. Our method circumvents the limitations of traditional
multi-image techniques, holding significant promise for practical, real-time
applications in NVS.
- Abstract(参考訳): 本稿では,単一のRGBD(Red Green Blue-Depth)入力から新しいビューイメージを合成する手法を提案する。
new view synthesis (nvs) は、幅広い応用を伴う興味深いコンピュータビジョンタスクである。
複数の画像を使用する方法はよく研究されており、例えば、シーン固有のニューラル放射場(NeRF)のトレーニングや、マルチビューステレオ(MVS)と3Dレンダリングパイプラインの活用などがある。
しかし、どちらも計算量的に集中するか、異なる場面で一般化できないかのいずれかであり、実用的価値を制限している。
逆に、rgbd画像に埋め込まれた深度情報は、特異な視点から3dポテンシャルを解き放ち、nvsを単純化する。
コンパクトで手頃な価格のステレオカメラや、スマートフォンなどの現代のデバイスでLiDARが広く利用できるようになることで、RGBD画像の撮影がこれまで以上に容易になった。
提案手法では, rgbd画像を点クラウドに変換し, 異なる視点からレンダリングし, nvsタスクを画像変換問題として定式化する。
生成的対向ネットワークを利用してレンダリング画像のスタイル変換を行い,新たな視点から撮影した写真に類似した結果を得た。
本稿では,CycleGANを用いた教師なし学習とPix2Pixを用いた教師なし学習の両方を探索し,質的な結果を実証する。
提案手法は従来のマルチイメージ手法の限界を回避し,NVSにおける実用的なリアルタイムアプリケーションの実現を約束する。
関連論文リスト
- PERF: Panoramic Neural Radiance Field from a Single Panorama [109.31072618058043]
PERFはパノラマ性神経放射場を1つのパノラマから訓練する新しいビュー合成フレームワークである。
本研究では,360度2Dシーンを3Dシーンに持ち上げるために,新しい共同RGBDインペイント法とプログレッシブ・インペイント・アンド・エラスティング法を提案する。
PERFは,パノラマから3D,テキストから3D,3Dシーンのスタイリングなど,現実世界のアプリケーションに広く利用することができる。
論文 参考訳(メタデータ) (2023-10-25T17:59:01Z) - DINER: Depth-aware Image-based NEural Radiance fields [45.63488428831042]
我々はDINER(Depth-aware Image-based NEural Radiance Field)を提案する。
RGB入力ビューの粗いセットが与えられた場合、シーン表現の再構築を導くために深度と特徴マップを予測する。
特徴融合と効率的なシーンサンプリングに深度情報を組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-29T23:22:44Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Urban Radiance Fields [77.43604458481637]
本研究では,都市屋外環境における世界地図作成によく利用されるスキャニングプラットフォームによって収集されたデータから3次元再構成と新しいビュー合成を行う。
提案手法は、制御された環境下での小さなシーンのための現実的な新しい画像の合成を実証したニューラルラジアンス場を拡張している。
これら3つのエクステンションはそれぞれ、ストリートビューデータの実験において、大幅なパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2021-11-29T15:58:16Z) - NeuralMVS: Bridging Multi-View Stereo and Novel View Synthesis [28.83180559337126]
本稿では,高解像度カラー画像とともに,距離関数として3次元シーン形状を復元できる新しいネットワークを提案する。
提案手法では,スパース画像のみを入力として使用し,新規なシーンによく対応できる。
論文 参考訳(メタデータ) (2021-08-09T08:59:24Z) - Neural Radiance Flow for 4D View Synthesis and Video Processing [59.9116932930108]
本稿では,RGB画像から動的シーンの4次元空間時空間表現を学習する手法を提案する。
私たちのアプローチの鍵は、シーンの3D占有率、輝度、およびダイナミクスをキャプチャすることを学ぶ神経暗黙表現を使用することです。
論文 参考訳(メタデータ) (2020-12-17T17:54:32Z) - pixelNeRF: Neural Radiance Fields from One or Few Images [20.607712035278315]
pixelNeRFは、1つまたは少数の入力画像に条件付された連続的なニューラルシーン表現を予測する学習フレームワークである。
本研究では,単一画像の新規ビュー合成タスクのためのShapeNetベンチマーク実験を行った。
いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:59:54Z) - Deep Multi Depth Panoramas for View Synthesis [70.9125433400375]
本稿では,複数のRGBD$alpha$panoramasからなる新しいシーン表現であるMultiple Depth Panorama(MDP)を提案する。
MDPは従来の3Dシーン表現よりもコンパクトであり、高品質で効率的な新しいビューレンダリングを可能にする。
論文 参考訳(メタデータ) (2020-08-04T20:29:15Z) - 3D Photography using Context-aware Layered Depth Inpainting [50.66235795163143]
本稿では、1枚のRGB-D入力画像を3D写真に変換する方法を提案する。
学習に基づく着色モデルでは,新しい局所的な色と深度を隠蔽領域に合成する。
結果の3D写真は、モーションパララックスで効率よくレンダリングできる。
論文 参考訳(メタデータ) (2020-04-09T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。