論文の概要: Few-shot Image Generation via Style Adaptation and Content Preservation
- arxiv url: http://arxiv.org/abs/2311.18169v1
- Date: Thu, 30 Nov 2023 01:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:30:27.281956
- Title: Few-shot Image Generation via Style Adaptation and Content Preservation
- Title(参考訳): スタイル適応とコンテンツ保存による少数撮影画像生成
- Authors: Xiaosheng He, Fan Yang, Fayao Liu, Guosheng Lin
- Abstract要約: 我々は、GAN転送に画像翻訳モジュールを導入し、モジュールはジェネレータにスタイルとコンテンツを分離するように教える。
我々の手法はショット設定がほとんどない状態で、常に最先端の手法を超越している。
- 参考スコア(独自算出の注目度): 60.08988307934977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a generative model with limited data (e.g., 10) is a very
challenging task. Many works propose to fine-tune a pre-trained GAN model.
However, this can easily result in overfitting. In other words, they manage to
adapt the style but fail to preserve the content, where \textit{style} denotes
the specific properties that defines a domain while \textit{content} denotes
the domain-irrelevant information that represents diversity. Recent works try
to maintain a pre-defined correspondence to preserve the content, however, the
diversity is still not enough and it may affect style adaptation. In this work,
we propose a paired image reconstruction approach for content preservation. We
propose to introduce an image translation module to GAN transferring, where the
module teaches the generator to separate style and content, and the generator
provides training data to the translation module in return. Qualitative and
quantitative experiments show that our method consistently surpasses the
state-of-the-art methods in few shot setting.
- Abstract(参考訳): 限られたデータ(例えば10)で生成モデルをトレーニングするのは、非常に難しい作業です。
多くの研究が事前訓練されたGANモデルを微調整することを提案している。
しかし、これは簡単に過度に適合する。
ここで \textit{style} はドメインを定義する特定のプロパティを表し、 \textit{content} は多様性を表すドメインに依存しない情報を表す。
最近の作品は、コンテンツを保存するために事前定義された対応を維持しようとするが、多様性はまだ不十分であり、スタイル適応に影響を与える可能性がある。
本研究では,コンテンツ保存のためのペア画像再構成手法を提案する。
我々はganトランスファーに画像翻訳モジュールを導入することを提案する。このモジュールはジェネレータにスタイルとコンテンツの分離を教え、ジェネレータは変換モジュールにトレーニングデータを提供する。
質的かつ定量的な実験により,本手法は少数のショット設定において最先端の手法を一貫して超越していることが示された。
関連論文リスト
- Dynamic Textual Prompt For Rehearsal-free Lifelong Person Re-identification [30.782126710974165]
生涯にわたる人物の再識別は、カメラを越えて人々を認識し、継続的なデータストリームから新たな知識を統合する。
主な課題は、パラメータの更新とドメインシフトに起因する破滅的な忘れに対処することである。
本稿では,テキスト記述をガイダンスとして用いて,サンプルを保持せずにドメイン間の不変性を学習するReIDモデルを提案する。
論文 参考訳(メタデータ) (2024-11-09T00:57:19Z) - DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:42:43Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Harnessing the Conditioning Sensorium for Improved Image Translation [2.9631016562930546]
マルチモーダル・ドメイン・トランスレーション(マルチモーダル・ドメイン・トランスレーション)は、通常、ある局所的な属性を「コンテンツ」イメージから継承する新しいイメージを指す。
本稿では,非絡み合った「コンテンツ」表現と「スタイル」表現をスクラッチから学習するための新しいアプローチを提案する。
既成モデルから抽出した条件情報に基づいて「コンテンツ」を定義する。
次に、再構成対象のセットを最適化し易い方法で、スタイル抽出器とイメージデコーダを訓練する。
論文 参考訳(メタデータ) (2021-10-13T02:07:43Z) - StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators [63.85888518950824]
生成モデルを新しいドメインに移行できるテキスト駆動方式を提案する。
自然言語のプロンプトと数分の訓練によって、我々の手法は複数のドメインにまたがってジェネレータを適応させることができることを示す。
論文 参考訳(メタデータ) (2021-08-02T14:46:46Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - Arbitrary Style Transfer via Multi-Adaptation Network [109.6765099732799]
所望のスタイル転送は、内容画像と参照されたスタイル絵が与えられた場合、そのスタイル絵の色調と鮮やかなストロークパターンで内容画像を描画する。
新たな不整合損失関数により,本ネットワークは,様々な入力画像に適応する主文パターンと正確なコンテンツ構造を抽出できる。
論文 参考訳(メタデータ) (2020-05-27T08:00:22Z) - ST$^2$: Small-data Text Style Transfer via Multi-task Meta-Learning [14.271083093944753]
テキストスタイルの転送は、コンテンツを保存しながら、あるスタイルの文を別のスタイルに言い換えることを目的としている。
並列トレーニングデータがないため、最先端の手法は教師なしであり、コンテンツを共有する大規模なデータセットに依存している。
そこで本研究では,任意のテキストスタイル間を移動するためのメタラーニングフレームワークを開発した。
論文 参考訳(メタデータ) (2020-04-24T13:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。