論文の概要: FSViewFusion: Few-Shots View Generation of Novel Objects
- arxiv url: http://arxiv.org/abs/2403.06394v2
- Date: Wed, 13 Mar 2024 02:41:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 10:59:15.460962
- Title: FSViewFusion: Few-Shots View Generation of Novel Objects
- Title(参考訳): FSViewFusion:新しいオブジェクトの生成を少し見る
- Authors: Rukhshanda Hussain, Hui Xian Grace Lim, Borchun Chen, Mubarak Shah,
Ser Nam Lim
- Abstract要約: 本研究では,3次元前処理を伴わないビュー合成のための事前訓練された安定拡散モデルを提案する。
具体的には,Dreamboothという画像モデルを用いたパーソナライズされたテキストに基づく手法を提案する。
ビューの概念は、ビューが学習された元のオブジェクトの識別に関係なく、アンタングル化され、新しいオブジェクトに転送可能であることを確認します。
- 参考スコア(独自算出の注目度): 75.81872204650807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Novel view synthesis has observed tremendous developments since the arrival
of NeRFs. However, Nerf models overfit on a single scene, lacking
generalization to out of distribution objects. Recently, diffusion models have
exhibited remarkable performance on introducing generalization in view
synthesis. Inspired by these advancements, we explore the capabilities of a
pretrained stable diffusion model for view synthesis without explicit 3D
priors. Specifically, we base our method on a personalized text to image model,
Dreambooth, given its strong ability to adapt to specific novel objects with a
few shots. Our research reveals two interesting findings. First, we observe
that Dreambooth can learn the high level concept of a view, compared to
arguably more complex strategies which involve finetuning diffusions on large
amounts of multi-view data. Second, we establish that the concept of a view can
be disentangled and transferred to a novel object irrespective of the original
object's identify from which the views are learnt. Motivated by this, we
introduce a learning strategy, FSViewFusion, which inherits a specific view
through only one image sample of a single scene, and transfers the knowledge to
a novel object, learnt from few shots, using low rank adapters. Through
extensive experiments we demonstrate that our method, albeit simple, is
efficient in generating reliable view samples for in the wild images. Code and
models will be released.
- Abstract(参考訳): 新規なビュー合成は、NeRFの到来以来、著しく発展してきた。
しかし、Nerfモデルは単一シーンで過度に適合し、分散オブジェクトの外部への一般化が欠如している。
近年、拡散モデルは、ビュー合成における一般化の導入において顕著な性能を示した。
これらの進歩にインスパイアされ、3次元前処理を伴わないビュー合成のための事前訓練された安定拡散モデルの能力について検討する。
具体的には,Dreamboothという画像モデルを用いたパーソナライズされたテキストに基づく手法を提案する。
我々の研究は2つの興味深い発見を明らかにしている。
まず、Dreamboothは、大量のマルチビューデータ上で微細な拡散を伴うより複雑な戦略と比較して、ビューの高レベルな概念を学習することができることを観察する。
第2に、ビューが学習された元のオブジェクトの識別によらず、ビューの概念を歪め、新しいオブジェクトに転送できることを確立する。
そこで我々は,単一のシーンの1つのイメージサンプルを通して特定のビューを継承する学習戦略FSViewFusionを導入し,その知識を新しいオブジェクトに転送し,低ランクのアダプタを用いて,少数のショットから学習する。
広範にわたる実験を通して,本手法が野生画像の信頼性の高いビューサンプルの生成に有効であることを示す。
コードとモデルはリリースされる。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - iFusion: Inverting Diffusion for Pose-Free Reconstruction from Sparse
Views [61.707755434165335]
iFusionは、未知のカメラポーズを持つ2つのビューのみを必要とする、新しい3Dオブジェクト再構成フレームワークである。
我々は,様々な物体の形状や外観に関する暗黙の知識を組み込んだ,事前学習されたビュー合成拡散モデルを利用する。
ポーズ推定と新しいビュー合成の両方において、実験は強い性能を示す。
論文 参考訳(メタデータ) (2023-12-28T18:59:57Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - DreamComposer: Controllable 3D Object Generation via Multi-View Conditions [45.4321454586475]
最近の作品では、ワン・イン・ザ・ワイルド画像から高品質なノベルビューを生成することができる。
複数の視点からの情報がないため、これらは制御可能な新しい視点を生み出すのに困難に直面する。
我々はDreamComposerについて述べる。DreamComposerはフレキシブルでスケーラブルなフレームワークで、マルチビュー条件を注入することで既存のビュー認識拡散モデルを強化することができる。
論文 参考訳(メタデータ) (2023-12-06T16:55:53Z) - ViVid-1-to-3: Novel View Synthesis with Video Diffusion Models [33.760292331843104]
単一のイメージからオブジェクトの新たなビューを生成することは、難しい作業です。
近年,拡散に基づくビュー合成法は大きな進歩を見せている。
本稿では,事前学習したビデオ拡散モデルを用いた簡単な方法を示す。
論文 参考訳(メタデータ) (2023-12-03T06:50:15Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - DreamSparse: Escaping from Plato's Cave with 2D Frozen Diffusion Model
Given Sparse Views [20.685453627120832]
既存の手法では、品質の高い結果を生成するのに苦労したり、オブジェクトごとの最適化が必要な場合が少なくない。
DreamSparseは、オブジェクトレベルの画像とシーンレベルの画像の両方に対して高品質なノベルビューを合成することができる。
論文 参考訳(メタデータ) (2023-06-06T05:26:26Z) - Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and
Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。