論文の概要: Towards Multi-View Consistent Style Transfer with One-Step Diffusion via Vision Conditioning
- arxiv url: http://arxiv.org/abs/2411.10130v1
- Date: Fri, 15 Nov 2024 12:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:14.790612
- Title: Towards Multi-View Consistent Style Transfer with One-Step Diffusion via Vision Conditioning
- Title(参考訳): ビジョン・コンディショニングによるワンステップ拡散を用いた多視点整合型移動に向けて
- Authors: Yushen Zuo, Jun Xiao, Kin-Chung Chan, Rongkang Dong, Cuixin Yang, Zongqi He, Hao Xie, Kin-Man Lam,
- Abstract要約: 提案手法により生成した異なる視点からのスティル化画像は、構造的整合性が良く、歪みも少ない、優れた視覚的品質を実現する。
本手法は,3次元情報のないスタイリング画像における構造情報と多視点整合性を効果的に保存する。
- 参考スコア(独自算出の注目度): 12.43848969320173
- License:
- Abstract: The stylization of 3D scenes is an increasingly attractive topic in 3D vision. Although image style transfer has been extensively researched with promising results, directly applying 2D style transfer methods to 3D scenes often fails to preserve the structural and multi-view properties of 3D environments, resulting in unpleasant distortions in images from different viewpoints. To address these issues, we leverage the remarkable generative prior of diffusion-based models and propose a novel style transfer method, OSDiffST, based on a pre-trained one-step diffusion model (i.e., SD-Turbo) for rendering diverse styles in multi-view images of 3D scenes. To efficiently adapt the pre-trained model for multi-view style transfer on small datasets, we introduce a vision condition module to extract style information from the reference style image to serve as conditional input for the diffusion model and employ LoRA in diffusion model for adaptation. Additionally, we consider color distribution alignment and structural similarity between the stylized and content images using two specific loss functions. As a result, our method effectively preserves the structural information and multi-view consistency in stylized images without any 3D information. Experiments show that our method surpasses other promising style transfer methods in synthesizing various styles for multi-view images of 3D scenes. Stylized images from different viewpoints generated by our method achieve superior visual quality, with better structural integrity and less distortion. The source code is available at https://github.com/YushenZuo/OSDiffST.
- Abstract(参考訳): 3Dシーンのスタイリングは、3Dビジョンにおいてますます魅力的なトピックとなっている。
画像スタイルの転送は有望な結果によって広く研究されているが、直接3Dシーンに2Dスタイルの転送手法を適用すると、しばしば3D環境の構造的・多視点特性の維持に失敗し、異なる視点からの画像に不快な歪みが生じる。
これらの課題に対処するために,拡散モデルに先行する顕著な生成手法を活用し,事前学習した1ステップ拡散モデル(SD-Turbo)に基づいて3Dシーンの多視点画像に多様なスタイルを描画する新しいスタイル転送手法,OSDiffSTを提案する。
小さなデータセット上でのマルチビュースタイル転送のための事前学習モデルを効率的に適用するために、参照スタイル画像からスタイル情報を抽出し、拡散モデルの条件入力として機能し、適応のための拡散モデルにLoRAを用いる視覚条件モジュールを導入する。
さらに,2つの特定の損失関数を用いて,色分布のアライメントとスタイリング画像とコンテンツ画像の構造的類似性を検討する。
その結果,スタイリング画像の構造情報とマルチビューの整合性を3次元情報なしで効果的に保存できることがわかった。
実験により,本手法は3次元シーンのマルチビュー画像に対して,様々なスタイルを合成する上で,他の有望なスタイル転送手法よりも優れていることが示された。
提案手法により生成した異なる視点からのスティル化画像は、構造的整合性が良く、歪みも少ない、優れた視覚的品質を実現する。
ソースコードはhttps://github.com/YushenZuo/OSDiffSTで入手できる。
関連論文リスト
- G3DST: Generalizing 3D Style Transfer with Neural Radiance Fields across Scenes and Styles [45.92812062685523]
既存の3Dスタイル転送の方法は、シングルまたは複数スタイルのシーンごとの広範な最適化が必要である。
本研究では, シーンごとの最適化やスタイルごとの最適化を必要とせずに, NeRF からスタイリングされた新しいビューをレンダリングすることで, 既存の手法の限界を克服する。
以上の結果から,本手法はシーンごとの手法に匹敵する視覚的品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-24T08:04:19Z) - Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-08T02:00:17Z) - Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images [54.56070204172398]
本稿では,3次元シーンをスタイリングするための簡易かつ効果的なパイプラインを提案する。
我々は、スタイル整列画像-画像拡散モデルにより生成されたスタイリング画像を用いて、ソースNeRFモデルを精細化し、3Dスタイルの転送を行う。
本手法は,現実の3Dシーンに多彩な芸術的スタイルを,競争力のある品質で伝達できることを実証する。
論文 参考訳(メタデータ) (2024-06-19T09:36:18Z) - Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - Gaussian Splatting in Style [32.41970914897462]
3Dシーン化は、ニューラルスタイルの3Dへの移行作業を拡張する。
この問題における重要な課題は、複数の視点でスタイリングされた外観の均一性を維持することである。
本稿では,実時間で高品質なスタイリングされた新しいビューを生成できる,スタイル画像のコレクションを訓練した新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-13T13:06:31Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - 3DSNet: Unsupervised Shape-to-Shape 3D Style Transfer [66.48720190245616]
本稿では,3次元オブジェクト間のスタイル伝達のための学習に基づくアプローチを提案する。
提案手法は点雲とメッシュの両方で新しい3次元形状を合成することができる。
選択したドメインのマルチモーダルなスタイル分布を暗黙的に学習するために,我々の手法を拡張した。
論文 参考訳(メタデータ) (2020-11-26T16:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。