論文の概要: Third Time's the Charm? Image and Video Editing with StyleGAN3
- arxiv url: http://arxiv.org/abs/2201.13433v1
- Date: Mon, 31 Jan 2022 18:44:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 16:57:06.413460
- Title: Third Time's the Charm? Image and Video Editing with StyleGAN3
- Title(参考訳): 3回目は魅力か?
StyleGAN3による画像とビデオ編集
- Authors: Yuval Alaluf, Or Patashnik, Zongze Wu, Asif Zamir, Eli Shechtman, Dani
Lischinski, Daniel Cohen-Or
- Abstract要約: StyleGANは間違いなく最も興味深くよく研究された生成モデルの一つである。
本稿では、最近のStyleGAN3アーキテクチャについて検討し、それ以前のアーキテクチャと比較し、その独特な利点と欠点について検討する。
- 参考スコア(独自算出の注目度): 70.36056009463738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: StyleGAN is arguably one of the most intriguing and well-studied generative
models, demonstrating impressive performance in image generation, inversion,
and manipulation. In this work, we explore the recent StyleGAN3 architecture,
compare it to its predecessor, and investigate its unique advantages, as well
as drawbacks. In particular, we demonstrate that while StyleGAN3 can be trained
on unaligned data, one can still use aligned data for training, without
hindering the ability to generate unaligned imagery. Next, our analysis of the
disentanglement of the different latent spaces of StyleGAN3 indicates that the
commonly used W/W+ spaces are more entangled than their StyleGAN2 counterparts,
underscoring the benefits of using the StyleSpace for fine-grained editing.
Considering image inversion, we observe that existing encoder-based techniques
struggle when trained on unaligned data. We therefore propose an encoding
scheme trained solely on aligned data, yet can still invert unaligned images.
Finally, we introduce a novel video inversion and editing workflow that
leverages the capabilities of a fine-tuned StyleGAN3 generator to reduce
texture sticking and expand the field of view of the edited video.
- Abstract(参考訳): StyleGANは間違いなく最も興味深く、よく研究された生成モデルの一つであり、画像生成、反転、操作において素晴らしいパフォーマンスを示している。
本稿では,最近のstylegan3アーキテクチャについて検討し,その先行アーキテクチャと比較し,そのユニークな利点と欠点について考察する。
特に、StyleGAN3は非整列データでトレーニングできるが、非整列画像を生成するのを妨げることなく、整列データをトレーニングに使用できることを示す。
次に、StyleGAN3の異なる潜伏空間のアンタングルを解析した結果、一般的に使われているW/W+空間はStyleGAN2空間よりも絡み合いが強く、より微細な編集にStyleSpaceを使うことの利点が強調された。
画像の逆転を考慮すると、既存のエンコーダベースの手法は、非整合データでトレーニングするときに苦労する。
そこで我々は、アライメントされたデータのみに基づいて訓練された符号化方式を提案する。
最後に、微調整されたStyleGAN3ジェネレータの機能を活用して、テクスチャの貼付を減らし、編集ビデオの視野を広げる新しいビデオインバージョンと編集ワークフローを提案する。
関連論文リスト
- WaSt-3D: Wasserstein-2 Distance for Scene-to-Scene Stylization on 3D Gaussians [37.139479729087896]
We developed a new style transfer method for 3D scene called WaSt-3D。
トレーニングを必要とせずに、スタイルシーンからコンテンツシーンに詳細を忠実に転送する。
WaSt-3Dは、トレーニングを必要とせずに、さまざまなコンテンツやスタイルシーンに一貫して結果を提供する。
論文 参考訳(メタデータ) (2024-09-26T15:02:50Z) - InstantStyleGaussian: Efficient Art Style Transfer with 3D Gaussian Splatting [1.495965529797126]
InstantStyleGaussianは3D Gaussian Splatting(3DGS)シーン表現に基づく革新的な3Dスタイルのトランスファー手法である。
ターゲットスタイルの画像を入力することで、新しい3DGSシーンを素早く生成する。
論文 参考訳(メタデータ) (2024-08-08T06:29:32Z) - Reference-based Controllable Scene Stylization with Gaussian Splatting [30.321151430263946]
コンテンツアラインな参照画像に基づいて外観を編集する参照ベースシーンスタイリングは、新たな研究領域である。
参照型スタイリゼーションに3Dガウススティング(3DGS)を適用し,リアルタイムなスタイリゼーションを実現するReGSを提案する。
論文 参考訳(メタデータ) (2024-07-09T20:30:29Z) - StyleGaussian: Instant 3D Style Transfer with Gaussian Splatting [141.05924680451804]
StyleGaussianは、新しい3Dスタイル転送技術である。
任意の画像のスタイルを毎秒10フレームの3Dシーンに即時転送できる(fps)。
論文 参考訳(メタデータ) (2024-03-12T16:44:52Z) - Learning Naturally Aggregated Appearance for Efficient 3D Editing [94.47518916521065]
カラーフィールドを2次元の鮮明なアグリゲーションに置き換えることを提案する。
歪み効果を回避し、簡便な編集を容易にするため、3Dの点をテクスチャルックアップのために2Dピクセルにマッピングする投影場を標準画像に補完する。
私たちの表現はAGAPと呼ばれ、再最適化を必要とせず、様々な3D編集方法(スタイル化、インタラクティブな描画、コンテンツ抽出など)をうまくサポートしています。
論文 参考訳(メタデータ) (2023-12-11T18:59:31Z) - DeformToon3D: Deformable 3D Toonification from Neural Radiance Fields [96.0858117473902]
3Dトーン化には、テクスチャ化された幾何学とテクスチャで、アートドメインのスタイルをターゲットの3D顔に転送することが含まれる。
階層型3D GANに適した効果的なトーン化フレームワークであるDeformToon3Dを提案する。
提案手法は3次元トーン化を幾何学とテクスチャスタイリングのサブプロブレムに分解し,元の潜伏空間をよりよく保存する。
論文 参考訳(メタデータ) (2023-09-08T16:17:45Z) - NeRFEditor: Differentiable Style Decomposition for Full 3D Scene Editing [37.06344045938838]
我々は,3次元シーン編集のための効率的な学習フレームワークであるNeRFEditorを提案する。
NeRFEditorは360deg以上の映像を入力として撮影し、高品質でアイデンティティを保存可能なスタイリングされた3Dシーンを出力する。
論文 参考訳(メタデータ) (2022-12-07T18:44:28Z) - ARF: Artistic Radiance Fields [63.79314417413371]
本稿では,任意のスタイル画像の芸術的特徴を3Dシーンに転送する方法を提案する。
点雲やメッシュ上で3次元スタイリングを行う従来の手法は、幾何的再構成誤差に敏感である。
より頑健なラディアンス場表現の体系化を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:55:31Z) - StyleMesh: Style Transfer for Indoor 3D Scene Reconstructions [11.153966202832933]
屋内シーンのメッシュ再構成にスタイル転送を適用する。
これにより、お気に入りのアーティストのスタイルで描かれた3D環境を体験するといったVRアプリケーションが可能になる。
論文 参考訳(メタデータ) (2021-12-02T18:59:59Z) - Learning to Stylize Novel Views [82.24095446809946]
任意の視点からシーンのスタイリング画像を生成する3Dシーンスタイリング問題に取り組む。
本稿では,一貫した3次元シーンスタイリングのためのポイントクラウドベースの手法を提案する。
論文 参考訳(メタデータ) (2021-05-27T23:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。