論文の概要: SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image
- arxiv url: http://arxiv.org/abs/2309.06323v2
- Date: Wed, 13 Sep 2023 05:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 11:18:36.752052
- Title: SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image
- Title(参考訳): サンプリング:単一画像からの新たなビュー合成のためのシーン適応型階層型マルチプレーン画像表現
- Authors: Xiaoyu Zhou, Zhiwei Lin, Xiaojun Shan, Yongtao Wang, Deqing Sun,
Ming-Hsuan Yang
- Abstract要約: 単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
- 参考スコア(独自算出の注目度): 60.52991173059486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent novel view synthesis methods obtain promising results for relatively
small scenes, e.g., indoor environments and scenes with a few objects, but tend
to fail for unbounded outdoor scenes with a single image as input. In this
paper, we introduce SAMPLING, a Scene-adaptive Hierarchical Multiplane Images
Representation for Novel View Synthesis from a Single Image based on improved
multiplane images (MPI). Observing that depth distribution varies significantly
for unbounded outdoor scenes, we employ an adaptive-bins strategy for MPI to
arrange planes in accordance with each scene image. To represent intricate
geometry and multi-scale details, we further introduce a hierarchical
refinement branch, which results in high-quality synthesized novel views. Our
method demonstrates considerable performance gains in synthesizing large-scale
unbounded outdoor scenes using a single image on the KITTI dataset and
generalizes well to the unseen Tanks and Temples dataset.The code and models
will soon be made available.
- Abstract(参考訳): 最近の新しいビュー合成手法は、室内環境やいくつかのオブジェクトを持つシーンなど、比較的小さなシーンに対して有望な結果が得られるが、単一のイメージを入力として、境界のない屋外シーンでは失敗する傾向にある。
本稿では,改良された多面体画像(MPI)に基づく単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
屋外の無界シーンでは深度分布が著しく異なることを観察し,各シーン画像に応じてmpiの適応ビン戦略を用いて平面配置を行った。
複雑な幾何学と多元的詳細を表現するために、さらに階層的洗練分枝を導入し、高品質な合成新奇なビューを導出する。
提案手法は,KITTIデータセット上の単一画像を用いて大規模非有界屋外シーンを合成し,未知のタンクとテンプルのデータセットによく対応し,コードとモデルが間もなく利用可能になることを示す。
関連論文リスト
- MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - MMPI: a Flexible Radiance Field Representation by Multiple Multi-plane
Images Blending [61.45757368117578]
本稿では,多平面画像(MPI)に基づく神経放射場のフレキシブルな表現について述べる。
MPIは、単純な定義、簡単な計算、非有界シーンを表現する強力な能力のために、NeRF学習で広く使われている。
MPIは複雑なシーンを多種多様なカメラ分布と視野方向で合成できることを示す。
論文 参考訳(メタデータ) (2023-09-30T04:36:43Z) - Single-View View Synthesis in the Wild with Learned Adaptive Multiplane
Images [15.614631883233898]
既存の手法では, 単分子深度推定と層状深度表現による色塗布による有望な結果が示されている。
マルチプレーン画像(MPI)表現に基づく新しい手法を提案する。
合成データと実データの両方の実験により、我々のトレーニングされたモデルは驚くほどうまく機能し、最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-05-24T02:57:16Z) - Scene Representation Transformer: Geometry-Free Novel View Synthesis
Through Set-Latent Scene Representations [48.05445941939446]
コンピュータビジョンにおける古典的な問題は、インタラクティブなレートで新しいビューを描画するのに使用できる少数の画像から3Dシーン表現を推論することである。
SRT(Scene Representation Transformer)は,新しい領域のRGB画像のポーズ処理やアンポーズ処理を行う手法である。
本手法は,PSNRおよび合成データセットの速度において,最近のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-25T16:18:56Z) - Free View Synthesis [100.86844680362196]
本稿では,シーンの周囲に自由に分布する入力画像から新規なビュー合成手法を提案する。
本手法は,入力ビューの規則的な配置に依存しず,シーンを通して自由なカメラ運動のための画像の合成が可能であり,制約のない幾何学的レイアウトの一般的な場面で機能する。
論文 参考訳(メタデータ) (2020-08-12T18:16:08Z) - Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision [83.33283892171562]
実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。
本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T18:17:40Z) - NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis [78.5281048849446]
本稿では,複雑なシーンの新たなビューを合成する手法を提案する。
提案アルゴリズムは,完全接続型(非畳み込み型)深層ネットワークを用いたシーンを表現する。
ボリュームレンダリングは自然に微分可能であるため、表現を最適化するのに必要な唯一の入力は、既知のカメラポーズを持つ画像の集合である。
論文 参考訳(メタデータ) (2020-03-19T17:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。