論文の概要: InfiniteNature-Zero: Learning Perpetual View Generation of Natural
Scenes from Single Images
- arxiv url: http://arxiv.org/abs/2207.11148v1
- Date: Fri, 22 Jul 2022 15:41:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:12:53.688889
- Title: InfiniteNature-Zero: Learning Perpetual View Generation of Natural
Scenes from Single Images
- Title(参考訳): InfiniteNature-Zero:単一画像から自然シーンの永遠視点生成を学習する
- Authors: Zhengqi Li, Qianqian Wang, Noah Snavely, Angjoo Kanazawa
- Abstract要約: 本研究では,1つの視点から自然シーンのフライスルー映像を学習する手法を提案する。
この能力は、カメラのポーズやシーンの複数のビューを必要とせずに、1枚の写真から学習される。
- 参考スコア(独自算出の注目度): 83.37640073416749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method for learning to generate unbounded flythrough videos of
natural scenes starting from a single view, where this capability is learned
from a collection of single photographs, without requiring camera poses or even
multiple views of each scene. To achieve this, we propose a novel
self-supervised view generation training paradigm, where we sample and
rendering virtual camera trajectories, including cyclic ones, allowing our
model to learn stable view generation from a collection of single views. At
test time, despite never seeing a video during training, our approach can take
a single image and generate long camera trajectories comprised of hundreds of
new views with realistic and diverse content. We compare our approach with
recent state-of-the-art supervised view generation methods that require posed
multi-view videos and demonstrate superior performance and synthesis quality.
- Abstract(参考訳): 本稿では,カメラのポーズやシーンの複数ビューを必要とせず,単一の写真コレクションから学習する自然シーンの非有界なフライスルー映像を生成する方法を提案する。
そこで本研究では,輪郭を含む仮想カメラ軌跡をサンプリング・レンダリングし,単一のビューの集合から安定したビュー生成を学習する,新しい自己教師型ビュー生成訓練パラダイムを提案する。
テスト時には、トレーニング中にビデオを見ることはないが、われわれのアプローチは1枚の画像を撮って、リアルで多様なコンテンツを含む何百もの新しいビューからなる長いカメラの軌跡を生成することができる。
提案手法を,多視点映像の提示を必要とする最新の最先端の教師付きビュー生成手法と比較し,優れた性能と合成品質を示す。
関連論文リスト
- Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Videos [66.1935609072708]
鍵となる仮説は、個々のビューがより正確にビューに依存しないテキストの要約を予測できるほど、それがより情報的になるということである。
本稿では,ビュー依存キャプション予測の相対的精度を,擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークを提案する。
推論の間、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として取り、各タイミングで見るのに最適な視点を返します。
論文 参考訳(メタデータ) (2024-11-13T16:31:08Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。
我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。
私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文 参考訳(メタデータ) (2024-05-23T17:59:52Z) - FSViewFusion: Few-Shots View Generation of Novel Objects [75.81872204650807]
本研究では,3次元前処理を伴わないビュー合成のための事前訓練された安定拡散モデルを提案する。
具体的には,Dreamboothという画像モデルを用いたパーソナライズされたテキストに基づく手法を提案する。
ビューの概念は、ビューが学習された元のオブジェクトの識別に関係なく、アンタングル化され、新しいオブジェクトに転送可能であることを確認します。
論文 参考訳(メタデータ) (2024-03-11T02:59:30Z) - PolyOculus: Simultaneous Multi-view Image-based Novel View Synthesis [23.967904337714234]
本稿では,複数の自己整合性を持つ新しいビューを同時に生成できるセットベース生成モデルを提案する。
我々のアプローチは一度に1つの画像を生成することに限らず、可変数のビューを条件にすることができる。
このモデルでは、ループや双眼の軌跡のような自然な順序のないビューを生成でき、そのようなタスクにおいて他の方法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-02-28T02:06:11Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Long-Term Photometric Consistent Novel View Synthesis with Diffusion
Models [24.301334966272297]
本稿では,特定のカメラ軌跡に整合したフォトリアリスティックな画像列を生成できる新しい生成モデルを提案する。
生成したビューのシーケンス上の一貫性を測定するために、新しい計量、しきい値付き対称極性距離(TSED)を導入する。
論文 参考訳(メタデータ) (2023-04-21T02:01:02Z) - Infinite Nature: Perpetual View Generation of Natural Scenes from a
Single Image [73.56631858393148]
本研究では,1枚の画像から任意に長いカメラの軌跡に対応する新規ビューの長期生成という,永続的なビュー生成の問題について紹介する。
我々は、幾何合成と画像合成の両方を反復レンダリング、洗練、反復フレームワークで統合するハイブリッドアプローチを採用する。
提案手法は,手動のアノテーションを使わずに,一眼レフビデオシーケンスの集合から訓練することができる。
論文 参考訳(メタデータ) (2020-12-17T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。