論文の概要: Deep View Synthesis via Self-Consistent Generative Network
- arxiv url: http://arxiv.org/abs/2101.10844v1
- Date: Tue, 19 Jan 2021 10:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 11:18:22.580685
- Title: Deep View Synthesis via Self-Consistent Generative Network
- Title(参考訳): 自己整合生成ネットワークによるディープビュー合成
- Authors: Zhuoman Liu, Wei Jia, Ming Yang, Peiyao Luo, Yong Guo, and Mingkui Tan
- Abstract要約: ビュー合成は、2つ以上のカメラが異なる位置で捉えた一連のビューから目に見えないビューを生成することを目的としている。
この問題に対処するために、ほとんどの既存の方法はピクセルに一致する幾何学的情報を利用しようとします。
本稿では,幾何学的情報を明示的に活用することなく,新たなビューを合成する自己持続生成ネットワーク(SCGN)を提案する。
- 参考スコア(独自算出の注目度): 41.34461086700849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: View synthesis aims to produce unseen views from a set of views captured by
two or more cameras at different positions. This task is non-trivial since it
is hard to conduct pixel-level matching among different views. To address this
issue, most existing methods seek to exploit the geometric information to match
pixels. However, when the distinct cameras have a large baseline (i.e., far
away from each other), severe geometry distortion issues would occur and the
geometric information may fail to provide useful guidance, resulting in very
blurry synthesized images. To address the above issues, in this paper, we
propose a novel deep generative model, called Self-Consistent Generative
Network (SCGN), which synthesizes novel views from the given input views
without explicitly exploiting the geometric information. The proposed SCGN
model consists of two main components, i.e., a View Synthesis Network (VSN) and
a View Decomposition Network (VDN), both employing an Encoder-Decoder
structure. Here, the VDN seeks to reconstruct input views from the synthesized
novel view to preserve the consistency of view synthesis. Thanks to VDN, SCGN
is able to synthesize novel views without using any geometric rectification
before encoding, making it easier for both training and applications. Finally,
adversarial loss is introduced to improve the photo-realism of novel views.
Both qualitative and quantitative comparisons against several state-of-the-art
methods on two benchmark tasks demonstrated the superiority of our approach.
- Abstract(参考訳): ビュー合成は、2つ以上のカメラが異なる位置で捉えた一連のビューから目に見えないビューを生成することを目的としている。
異なるビュー間でピクセルレベルのマッチングを行うのは難しいため、このタスクは簡単ではない。
この問題に対処するために、既存の手法の多くは、ピクセルにマッチする幾何学的情報を活用しようとする。
しかし、異なるカメラが大きなベースラインを持つ場合(すなわち、互いに遠く離れた)、厳密な幾何学的歪みの問題が起こり、幾何学的情報が有用なガイダンスを与えられないため、非常にぼやけた合成画像が得られる。
以上の課題に対処するため,本稿では,幾何学的情報を明示的に活用することなく,与えられた入力ビューから新規なビューを合成する,自己一貫性生成ネットワーク(SCGN)と呼ばれる新しい深層生成モデルを提案する。
提案したSCGNモデルは、ビュー合成ネットワーク(VSN)とビュー分解ネットワーク(VDN)の2つの主要コンポーネントから構成され、どちらもエンコーダ-デコーダ構造を採用している。
ここで、VDNは、合成された新しいビューから入力ビューを再構築し、ビュー合成の一貫性を維持する。
vdnのおかげで、scgnはエンコードする前に幾何学的修正を使わずに新しいビューを合成できるため、トレーニングとアプリケーションの両方が容易になる。
最後に、新たなビューのフォトリアリズムを改善するために、敵対的損失が導入される。
2つのベンチマークタスクにおけるいくつかの最先端手法に対する定性的および定量的比較は、我々のアプローチの優位性を示した。
関連論文リスト
- GenWarp: Single Image to Novel Views with Semantic-Preserving Generative Warping [47.38125925469167]
一つの画像から新しいビューを生成するための意味保存型生成ワープフレームワークを提案する。
提案手法は,ソースビューイメージに生成モデルを条件付けすることで,既存の手法の限界に対処する。
我々のモデルは、ドメイン内シナリオとドメイン外シナリオの両方において、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-05-27T15:07:04Z) - G-NeRF: Geometry-enhanced Novel View Synthesis from Single-View Images [45.66479596827045]
我々は,幾何誘導多視点合成手法により,幾何先行性を高めるための幾何強調型NeRF(G-NeRF)を提案する。
単一視点画像に対する多視点監視の欠如に対処するために,深度認識型トレーニングアプローチを設計する。
論文 参考訳(メタデータ) (2024-04-11T04:58:18Z) - Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:57Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Geometry-biased Transformers for Novel View Synthesis [36.11342728319563]
入力画像と関連するカメラ視点が与えられたオブジェクトの新規ビューを合成するタスクに取り組む。
我々の研究は、マルチビュー画像を(グローバル)セットラテント表現としてエンコードする最近の「幾何学自由」アプローチにインスパイアされている。
本稿では, 幾何学的帰納バイアスをセットレイト表現に基づく推論に組み込んだ「幾何学バイアス変換器」(GBT)を提案する。
論文 参考訳(メタデータ) (2023-01-11T18:59:56Z) - Novel View Synthesis from a Single Image via Unsupervised learning [27.639536023956122]
本研究では,そのような画素変換を単一ソース視点から学習するための教師なしネットワークを提案する。
学習した変換により、未知のポーズの単一のソース視点画像から新しいビューを合成することができる。
論文 参考訳(メタデータ) (2021-10-29T06:32:49Z) - Self-Supervised Visibility Learning for Novel View Synthesis [79.53158728483375]
従来のレンダリング方法はシーン形状を推定し、2つの別々のステップで新しいビューを合成します。
エラー伝搬問題を排除するために,エンドツーエンドのNVSフレームワークを提案する。
当社のネットワークはエンドツーエンドのセルフ監視方式でトレーニングされており、ビュー合成におけるエラーの蓄積を大幅に軽減します。
論文 参考訳(メタデータ) (2021-03-29T08:11:25Z) - Street-view Panoramic Video Synthesis from a Single Satellite Image [92.26826861266784]
時間的および幾何学的に一貫したストリートビューパノラマビデオの両方を合成する新しい方法を提示する。
既存のクロスビュー合成アプローチは画像に重点を置いているが、そのような場合のビデオ合成はまだ十分な注目を集めていない。
論文 参考訳(メタデータ) (2020-12-11T20:22:38Z) - Free View Synthesis [100.86844680362196]
本稿では,シーンの周囲に自由に分布する入力画像から新規なビュー合成手法を提案する。
本手法は,入力ビューの規則的な配置に依存しず,シーンを通して自由なカメラ運動のための画像の合成が可能であり,制約のない幾何学的レイアウトの一般的な場面で機能する。
論文 参考訳(メタデータ) (2020-08-12T18:16:08Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。