論文の概要: Unsupervised Novel View Synthesis from a Single Image
- arxiv url: http://arxiv.org/abs/2102.03285v1
- Date: Fri, 5 Feb 2021 16:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 14:38:49.722832
- Title: Unsupervised Novel View Synthesis from a Single Image
- Title(参考訳): 単一画像からの教師なし新規ビュー合成
- Authors: Pierluigi Zama Ramirez, Alessio Tonioni, Federico Tombari
- Abstract要約: 単一の画像からの新しいビュー合成は、オブジェクトの単一入力画像から新しいビューを生成することを目的としている。
本研究の目的は、新しいビュー合成のための条件付き生成モデルの訓練を、完全に教師なしの方法で行えるようにすることで、この仮定を緩和することである。
- 参考スコア(独自算出の注目度): 47.37120753568042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel view synthesis from a single image aims at generating novel views from
a single input image of an object. Several works recently achieved remarkable
results, though require some form of multi-view supervision at training time,
therefore limiting their deployment in real scenarios. This work aims at
relaxing this assumption enabling training of conditional generative model for
novel view synthesis in a completely unsupervised manner. We first pre-train a
purely generative decoder model using a GAN formulation while at the same time
training an encoder network to invert the mapping from latent code to images.
Then we swap encoder and decoder and train the network as a conditioned GAN
with a mixture of auto-encoder-like objective and self-distillation. At test
time, given a view of an object, our model first embeds the image content in a
latent code and regresses its pose w.r.t. a canonical reference system, then
generates novel views of it by keeping the code and varying the pose. We show
that our framework achieves results comparable to the state of the art on
ShapeNet and that it can be employed on unconstrained collections of natural
images, where no competing method can be trained.
- Abstract(参考訳): 単一の画像からの新しいビュー合成は、オブジェクトの単一入力画像から新しいビューを生成することを目的としている。
いくつかの作業は最近驚くべき結果を達成したが、トレーニング時に何らかの形でマルチビューの監督を必要とするため、実際のシナリオでの展開が制限される。
本研究は,この仮定を緩和し,条件付き生成モデルの学習を可能にすることを目的としている。
まず,ganを用いた純粋生成型デコーダモデルを事前学習し,同時にエンコーダネットワークを訓練し,潜在コードから画像へのマッピングを反転させる。
次に、エンコーダとデコーダを交換し、オートエンコーダのような目的と自己蒸留を混合した条件付きGANとしてネットワークを訓練する。
テスト時に、オブジェクトのビューを考えると、私たちのモデルはまずイメージ内容を潜入コードに埋め込んで、そのポーズをw.r.tに残します。
標準参照システムは、コードを保持し、ポーズを変えることで、それの新しいビューを生成する。
本研究では,本フレームワークがShapeNetの最先端技術に匹敵する結果を達成し,競合する手法を訓練しない自然画像の非制約コレクションに適用可能であることを示す。
関連論文リスト
- Image Generation from Image Captioning -- Invertible Approach [0.0]
画像とテキストの埋め込みを1対1でマッピングする非可逆モデルを訓練する。
インバーチブルモデルが1つのタスクで効率的に訓練されると、画像キャプションは、同じモデルが与えられたテキストに対して新しい画像を生成することができる。
論文 参考訳(メタデータ) (2024-10-26T13:02:58Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - im2nerf: Image to Neural Radiance Field in the Wild [47.18702901448768]
im2nerfは、野生の1つの入力イメージが与えられた連続的な神経オブジェクト表現を予測する学習フレームワークである。
Im2nerfは、野生の単視未表示画像から新しいビューを合成するための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-08T23:28:56Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Novel View Synthesis from a Single Image via Unsupervised learning [27.639536023956122]
本研究では,そのような画素変換を単一ソース視点から学習するための教師なしネットワークを提案する。
学習した変換により、未知のポーズの単一のソース視点画像から新しいビューを合成することができる。
論文 参考訳(メタデータ) (2021-10-29T06:32:49Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Augmentation-Interpolative AutoEncoders for Unsupervised Few-Shot Image
Generation [45.380129419065746]
Augmentation-Interpolative AutoEncodersは、いくつかの参照画像から新しいオブジェクトの現実的なイメージを合成する。
我々の手順はシンプルで軽量であり、広範囲に一般化されており、訓練中にカテゴリラベルやその他の監督を必要としない。
論文 参考訳(メタデータ) (2020-11-25T21:18:55Z) - Sequential View Synthesis with Transformer [13.200139959163574]
学習した表現に基づいて、ターゲットビューを含む画像シーケンスを予測するシーケンシャルレンダリングデコーダを導入する。
我々は、様々な挑戦的なデータセットでモデルを評価し、モデルが一貫性のある予測を与えるだけでなく、微調整のための再トレーニングも必要としないことを示した。
論文 参考訳(メタデータ) (2020-04-09T14:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。