論文の概要: RefineStyle: Dynamic Convolution Refinement for StyleGAN
- arxiv url: http://arxiv.org/abs/2410.06104v1
- Date: Tue, 8 Oct 2024 15:01:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 11:10:50.648773
- Title: RefineStyle: Dynamic Convolution Refinement for StyleGAN
- Title(参考訳): RefineStyle: StyleGANの動的畳み込みリファインメント
- Authors: Siwei Xia, Xueqi Hu, Li Sun, Qingli Li,
- Abstract要約: StyleGANでは、畳み込みカーネルは画像間で共有される静的パラメータの両方によって形成される。
$mathcalW+$スペースは画像の反転や編集によく使われる。
本稿では,動的カーネルの効率的な精錬戦略を提案する。
- 参考スコア(独自算出の注目度): 15.230430037135017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In StyleGAN, convolution kernels are shaped by both static parameters shared across images and dynamic modulation factors $w^+\in\mathcal{W}^+$ specific to each image. Therefore, $\mathcal{W}^+$ space is often used for image inversion and editing. However, pre-trained model struggles with synthesizing out-of-domain images due to the limited capabilities of $\mathcal{W}^+$ and its resultant kernels, necessitating full fine-tuning or adaptation through a complex hypernetwork. This paper proposes an efficient refining strategy for dynamic kernels. The key idea is to modify kernels by low-rank residuals, learned from input image or domain guidance. These residuals are generated by matrix multiplication between two sets of tokens with the same number, which controls the complexity. We validate the refining scheme in image inversion and domain adaptation. In the former task, we design grouped transformer blocks to learn these token sets by one- or two-stage training. In the latter task, token sets are directly optimized to support synthesis in the target domain while preserving original content. Extensive experiments show that our method achieves low distortions for image inversion and high quality for out-of-domain editing.
- Abstract(参考訳): StyleGANでは、コンボリューションカーネルは画像間で共有される静的パラメータと、各画像に特有の動的変調因子$w^+\in\mathcal{W}^+$によって形成される。
したがって、$\mathcal{W}^+$スペースは画像の反転や編集によく使用される。
しかし、事前訓練されたモデルでは、$\mathcal{W}^+$とその結果として生じるカーネルの能力に制限があり、複雑なハイパーネットワークを通して完全な微調整や適応を必要とするため、ドメイン外の画像の合成に苦労する。
本稿では,動的カーネルの効率的な精錬戦略を提案する。
キーとなる考え方は、入力画像やドメインガイダンスから学んだ低ランク残差によるカーネルの変更である。
これらの残基は、同じ数を持つ2つのトークンの集合間の行列乗法によって生成される。
画像インバージョンとドメイン適応における精細化方式を検証する。
従来のタスクでは、1段階または2段階のトレーニングでこれらのトークン集合を学習するために、グループ化されたトランスフォーマーブロックを設計する。
後者のタスクでは、トークンセットは、元のコンテンツを保持しながら、ターゲットドメインの合成をサポートするように、直接最適化される。
大規模な実験により,画像インバージョンのための歪みが低く,ドメイン外編集のための高品質な手法が得られた。
関連論文リスト
- Guided Patch-Grouping Wavelet Transformer with Spatial Congruence for
Ultra-High Resolution Segmentation [18.50799240622156]
GPWFormer(GPWFormer)の提案
$mathcalT$は、UHRイメージ全体を入力として取り、局所的な詳細と細かな長距離コンテキスト依存の両方を抽出する。
$mathcalC$は、カテゴリの深いコンテキストを学ぶための入力として、サンプルイメージを取ります。
論文 参考訳(メタデータ) (2023-07-03T02:19:48Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - Vision Transformers with Mixed-Resolution Tokenization [34.18534105043819]
Vision Transformer は入力画像を等サイズのパッチの空間的に規則的なグリッドに分割して処理する。
本稿では,標準均一格子をトークンの混合分解能シーケンスに置き換えた新しい画像トークン化方式を提案する。
クアドツリーアルゴリズムと新しいサリエンシースコアラを用いて、画像の低彩度領域を低解像度で処理するパッチモザイクを構築する。
論文 参考訳(メタデータ) (2023-04-01T10:39:46Z) - Raising The Limit Of Image Rescaling Using Auxiliary Encoding [7.9700865143145485]
近年、IRNのような画像再スケーリングモデルは、INNの双方向性を利用して、画像アップスケーリングのパフォーマンス限界を押し上げている。
本稿では,画像再スケーリング性能の限界をさらに押し上げるために,補助符号化モジュールを提案する。
論文 参考訳(メタデータ) (2023-03-12T20:49:07Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Hybrid Model-based / Data-driven Graph Transform for Image Coding [54.31406300524195]
予測内残差ブロックを符号化するハイブリッドモデルベース/データ駆動方式を提案する。
変換行列の最初の$K$固有ベクトルは、安定性のための非対称離散正弦変換(ADST)のような統計モデルから導かれる。
WebPをベースライン画像として使用することにより、我々のハイブリッドグラフ変換は、デフォルトの離散コサイン変換(DCT)よりもエネルギーの圧縮が良く、KLTよりも安定性がよいことを示す。
論文 参考訳(メタデータ) (2022-03-02T15:36:44Z) - Enhancing variational generation through self-decomposition [0.0]
SVAE(Split Variational Autoencoder)の概念を紹介する。
ネットワークは通常の変分オートエンコーダとして訓練されており、トレーニングと再構成画像の間に負の対数損失がある。
FID測定値によると、Mnist、Cifar10、Celebaといった典型的なデータセットでテストした手法により、従来の純粋に変動するアーキテクチャを全て上回ることができる。
論文 参考訳(メタデータ) (2022-02-06T08:49:21Z) - Fast and High-Quality Image Denoising via Malleable Convolutions [72.18723834537494]
動的畳み込みの効率的な変種として、Malleable Convolution (MalleConv)を提案する。
以前の作品とは異なり、MalleConvは入力から空間的に変化するカーネルのより小さなセットを生成する。
また、MalleNetという造語であるMalleConvを用いて、効率的なdenoisingネットワークを構築した。
論文 参考訳(メタデータ) (2022-01-02T18:35:20Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。