論文の概要: Generative View Synthesis: From Single-view Semantics to Novel-view
Images
- arxiv url: http://arxiv.org/abs/2008.09106v2
- Date: Fri, 2 Oct 2020 12:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 03:23:28.339470
- Title: Generative View Synthesis: From Single-view Semantics to Novel-view
Images
- Title(参考訳): 生成的ビュー合成:単一ビューセマンティックから新しいビューイメージへ
- Authors: Tewodros Habtegebrial, Varun Jampani, Orazio Gallo, Didier Stricker
- Abstract要約: ジェネレーティブビュー合成(GVS)は、単一のセマンティックマップが与えられたシーンの複数のフォトリアリスティックビューを合成することができる。
まず、入力された2Dセマンティックマップを、特徴空間内のシーンの3D層表現に持ち上げる。
次に、レイヤー化された特徴を対象のビューに投影し、最終的なノベルビュー画像を生成する。
- 参考スコア(独自算出の注目度): 38.7873192939574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Content creation, central to applications such as virtual reality, can be a
tedious and time-consuming. Recent image synthesis methods simplify this task
by offering tools to generate new views from as little as a single input image,
or by converting a semantic map into a photorealistic image. We propose to push
the envelope further, and introduce Generative View Synthesis (GVS), which can
synthesize multiple photorealistic views of a scene given a single semantic
map. We show that the sequential application of existing techniques, e.g.,
semantics-to-image translation followed by monocular view synthesis, fail at
capturing the scene's structure. In contrast, we solve the semantics-to-image
translation in concert with the estimation of the 3D layout of the scene, thus
producing geometrically consistent novel views that preserve semantic
structures. We first lift the input 2D semantic map onto a 3D layered
representation of the scene in feature space, thereby preserving the semantic
labels of 3D geometric structures. We then project the layered features onto
the target views to generate the final novel-view images. We verify the
strengths of our method and compare it with several advanced baselines on three
different datasets. Our approach also allows for style manipulation and image
editing operations, such as the addition or removal of objects, with simple
manipulations of the input style images and semantic maps respectively. Visit
the project page at https://gvsnet.github.io.
- Abstract(参考訳): コンテンツの作成は、仮想現実のようなアプリケーションの中心であり、退屈で時間がかかります。
最近の画像合成手法では、単一の入力画像から新しいビューを生成するツールを提供することや、セマンティックマップをフォトリアリスティック画像に変換することで、この作業を単純化している。
本稿では,このエンベロープをさらに推し進め,単一のセマンティックマップを与えられたシーンの複数のフォトリアリスティックなビューを合成できる生成ビュー合成(GVS)を導入することを提案する。
既存の手法,例えばセマンティックス・ツー・イメージ翻訳とモノクラービュー合成の逐次的適用は,シーンの構造を捉えるのに失敗することを示す。
対照的に,シーンの3次元レイアウトの推定と連動して意味論から画像への変換を解き,意味構造を保存する幾何学的に一貫性のある新しい視点を作り出す。
まず、入力された2Dセマンティックマップを特徴空間内のシーンの3次元層表現に持ち上げ、3次元幾何構造のセマンティックラベルを保存する。
次に、レイヤー化された特徴をターゲットビューに投影し、最終的な新規ビュー画像を生成する。
提案手法の強みを検証し、3つの異なるデータセット上でいくつかの高度なベースラインと比較する。
提案手法では,オブジェクトの追加や削除といったスタイル操作や画像編集も可能で,入力スタイルのイメージとセマンティックマップをそれぞれ簡単な操作で行うことができる。
プロジェクトページはhttps://gvsnet.github.io。
関連論文リスト
- Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - DeepPanoContext: Panoramic 3D Scene Understanding with Holistic Scene
Context Graph and Relation-based Optimization [66.25948693095604]
本研究では,パノラマ画像から各オブジェクトの3次元空間配置と形状,ポーズ,位置,意味的カテゴリを復元するパノラマ3次元シーン理解手法を提案する。
実験により, この手法は, パノラマシーン理解において, 幾何学的精度とオブジェクト配置の両方の観点から, 既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-24T13:55:29Z) - Realistic Image Synthesis with Configurable 3D Scene Layouts [59.872657806747576]
本稿では,3次元シーンレイアウトに基づくリアルな画像合成手法を提案する。
提案手法では, セマンティッククラスラベルを入力として3Dシーンを抽出し, 3Dシーンの描画ネットワークを訓練する。
訓練された絵画ネットワークにより、入力された3Dシーンのリアルな外観の画像を描画し、操作することができる。
論文 参考訳(メタデータ) (2021-08-23T09:44:56Z) - Worldsheet: Wrapping the World in a 3D Sheet for View Synthesis from a
Single Image [26.770326254205223]
本稿では,単一のRGB画像のみを入力として,新しいビュー合成手法であるWorldsheetを提案する。
Worldsheetは、複数のデータセットにまたがるシングルイメージビュー合成において、常に最先端の手法を上回ります。
論文 参考訳(メタデータ) (2020-12-17T18:59:52Z) - Semantic View Synthesis [56.47999473206778]
我々はセマンティック・ビュー・シンセサイザーの新たな課題に取り組み、セマンティック・ラベル・マップを入力として、合成シーンの自由視点レンダリングを生成する。
まず,3次元映像の視覚面の色と深度を合成することに焦点を当てた。
次に、合成色と深度を用いて、多面画像(MPI)表現予測プロセスに明示的な制約を課す。
論文 参考訳(メタデータ) (2020-08-24T17:59:46Z) - Continuous Object Representation Networks: Novel View Synthesis without
Target View Supervision [26.885846254261626]
連続オブジェクト表現ネットワーク(Continuous Object Representation Networks、CORN)は、入力画像の幾何学と外観を3D一貫したシーン表現にマッピングする条件付きアーキテクチャである。
CORNは、新しいビューの合成やシングルビューの3D再構成、そして直接監督を使用する最先端のアプローチに匹敵するパフォーマンスといった挑戦的なタスクでうまく機能する。
論文 参考訳(メタデータ) (2020-07-30T17:49:44Z) - Single-View View Synthesis with Multiplane Images [64.46556656209769]
深層学習を応用して、既知の視点で2つ以上の入力画像が与えられた多面体画像を生成する。
本手法は,単一画像入力から直接多面体画像を予測することを学習する。
さらに、適切な深度マップを生成し、背景層の前景オブジェクトのエッジの背後にあるコンテンツを埋める。
論文 参考訳(メタデータ) (2020-04-23T17:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。