論文の概要: NVS-Adapter: Plug-and-Play Novel View Synthesis from a Single Image
- arxiv url: http://arxiv.org/abs/2312.07315v2
- Date: Sat, 10 Aug 2024 07:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 00:28:29.015195
- Title: NVS-Adapter: Plug-and-Play Novel View Synthesis from a Single Image
- Title(参考訳): NVS-Adapter:単一画像からのプラグイン・アンド・プレイの新規ビュー合成
- Authors: Yoonwoo Jeong, Jinwoo Lee, Chiheon Kim, Minsu Cho, Doyup Lee,
- Abstract要約: NVS-Adapterは、Text-to-Image(T2I)モデルのプラグインモジュールである。
T2Iモデルの一般化能力を完全に活用しながら、新しい視覚オブジェクトのマルチビューを合成する。
実験により,NVS-Adapterは幾何的に一貫した多視点を効果的に合成できることが示されている。
- 参考スコア(独自算出の注目度): 45.34977005820166
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transfer learning of large-scale Text-to-Image (T2I) models has recently shown impressive potential for Novel View Synthesis (NVS) of diverse objects from a single image. While previous methods typically train large models on multi-view datasets for NVS, fine-tuning the whole parameters of T2I models not only demands a high cost but also reduces the generalization capacity of T2I models in generating diverse images in a new domain. In this study, we propose an effective method, dubbed NVS-Adapter, which is a plug-and-play module for a T2I model, to synthesize novel multi-views of visual objects while fully exploiting the generalization capacity of T2I models. NVS-Adapter consists of two main components; view-consistency cross-attention learns the visual correspondences to align the local details of view features, and global semantic conditioning aligns the semantic structure of generated views with the reference view. Experimental results demonstrate that the NVS-Adapter can effectively synthesize geometrically consistent multi-views and also achieve high performance on benchmarks without full fine-tuning of T2I models. The code and data are publicly available in ~\href{https://postech-cvlab.github.io/nvsadapter/}{https://postech-cvlab.github.io/nvsadapter/}.
- Abstract(参考訳): 大規模テキスト・トゥ・イメージ(T2I)モデルの伝達学習は、最近、単一の画像から多種多様なオブジェクトのノベルビュー・シンセサイザー(NVS)に顕著な可能性を示している。
従来の手法では、NVSのマルチビューデータセット上で大規模モデルをトレーニングすることが多いが、T2Iモデルのパラメータ全体を微調整すると、高コストが要求されるだけでなく、新しいドメインで多様な画像を生成する際のT2Iモデルの一般化能力も低下する。
本研究では,T2Iモデルの汎用能力をフル活用しつつ,新しい視覚オブジェクトのマルチビューを合成するための,T2IモデルのプラグアンドプレイモジュールであるNVS-Adapterを提案する。
NVS-Adapterは2つの主要コンポーネントから構成される。ビュー一貫性のクロスアテンションは、ビュー特徴の局所的な詳細を一致させるために視覚対応を学習し、グローバルセマンティックコンディショニングは生成されたビューのセマンティック構造を参照ビューと整合させる。
実験結果から,NVS-Adapterは幾何的に一貫したマルチビューを効果的に合成し,T2Iモデルを完全に微調整することなくベンチマーク上で高い性能を達成できることが示された。
コードとデータは ~\href{https://postech-cvlab.github.io/nvsadapter/}{https://postech-cvlab.github.io/nvsadapter/} で公開されている。
関連論文リスト
- MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。
我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。
スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文 参考訳(メタデータ) (2024-11-25T07:34:23Z) - Novel View Synthesis with Pixel-Space Diffusion Models [4.844800099745365]
新規ビュー合成(NVS)に遺伝子モデルがますます採用されている
画素空間における終端NVSに対して,現代的な拡散モデルアーキテクチャを適用した。
単視点データセットを利用した新しいNVSトレーニングスキームを導入し,その相対的多元性に着目した。
論文 参考訳(メタデータ) (2024-11-12T12:58:33Z) - TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation [22.782099757385804]
TIP-I2Vは、ユーザが提供するテキストと画像プロンプトの大規模なデータセットとしては初めてである。
我々は、5つの最先端画像からビデオまでのモデルから、対応する生成されたビデオを提供する。
論文 参考訳(メタデータ) (2024-11-05T18:52:43Z) - SingleInsert: Inserting New Concepts from a Single Image into
Text-to-Image Models for Flexible Editing [59.3017821001455]
SingleInsert(シングルインサート)は、イメージ・トゥ・テキスト(I2T)のインバージョン手法であり、同じ概念を含む単一のソースイメージを持つ。
本研究では,SingleInsertという,シングルイメージI2Tインバージョンのためのシンプルで効果的なベースラインを提案する。
提案手法により、SingleInsertは、フレキシブルな編集を可能にしながら、高い視覚的忠実度でシングルコンセプト生成に優れる。
論文 参考訳(メタデータ) (2023-10-12T07:40:39Z) - MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval [60.454321238910474]
最先端のビデオテキスト検索手法は、通常、特定のデータセット上で事前訓練されたモデルを完全に微調整する。
本稿では,事前学習モデルを用いてパラメータ効率の高いVTRを実現する先駆的手法を提案する。
本稿では,Multimodal Video Adapter (MV-Adapter) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-19T03:42:56Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z) - Deep View Synthesis via Self-Consistent Generative Network [41.34461086700849]
ビュー合成は、2つ以上のカメラが異なる位置で捉えた一連のビューから目に見えないビューを生成することを目的としている。
この問題に対処するために、ほとんどの既存の方法はピクセルに一致する幾何学的情報を利用しようとします。
本稿では,幾何学的情報を明示的に活用することなく,新たなビューを合成する自己持続生成ネットワーク(SCGN)を提案する。
論文 参考訳(メタデータ) (2021-01-19T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。