論文の概要: Fix the Noise: Disentangling Source Feature for Controllable Domain
Translation
- arxiv url: http://arxiv.org/abs/2303.11545v1
- Date: Tue, 21 Mar 2023 02:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 16:46:41.934509
- Title: Fix the Noise: Disentangling Source Feature for Controllable Domain
Translation
- Title(参考訳): ノイズの修正:制御可能なドメイン翻訳のための遠ざかるソース機能
- Authors: Dongyeun Lee, Jae Young Lee, Doyeon Kim, Jaehyun Choi, Jaejun Yoo,
Junmo Kim
- Abstract要約: 制御性に優れた高品質なドメイン翻訳手法を提案する。
キーとなるアイデアは、ソースの機能を、ターゲットのフィーチャー空間のアンタングルされた部分空間内に保持することである。
実験の結果,提案手法はより一貫性があり,現実的な画像を生成することができることがわかった。
- 参考スコア(独自算出の注目度): 34.18091057284519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show strong generative performance in domain translation
especially by using transfer learning techniques on the unconditional
generator. However, the control between different domain features using a
single model is still challenging. Existing methods often require additional
models, which is computationally demanding and leads to unsatisfactory visual
quality. In addition, they have restricted control steps, which prevents a
smooth transition. In this paper, we propose a new approach for high-quality
domain translation with better controllability. The key idea is to preserve
source features within a disentangled subspace of a target feature space. This
allows our method to smoothly control the degree to which it preserves source
features while generating images from an entirely new domain using only a
single model. Our extensive experiments show that the proposed method can
produce more consistent and realistic images than previous works and maintain
precise controllability over different levels of transformation. The code is
available at https://github.com/LeeDongYeun/FixNoise.
- Abstract(参考訳): 最近の研究では、特に非条件生成器の転写学習技術を用いて、ドメイン翻訳において強力な生成性能を示す。
しかし、単一のモデルを使用して異なるドメイン機能間の制御は依然として難しい。
既存の方法は、しばしば追加のモデルを必要とし、計算的に要求され、不満足な視覚的品質をもたらす。
さらに、コントロールステップが制限され、スムーズな移行が防止される。
本稿では,制御性が向上した高品質領域翻訳のための新しい手法を提案する。
鍵となるアイデアは、対象の機能空間の分断された部分空間内のソース機能を保存することである。
これにより、1つのモデルだけで全く新しいドメインから画像を生成しながら、ソースの特徴を保存する程度をスムーズに制御できる。
広範な実験により,提案手法は従来の手法よりも一貫性と現実的なイメージを生成でき,異なるレベルのトランスフォーメーションに対して正確な制御性が維持できることが示された。
コードはhttps://github.com/LeeDongYeun/FixNoiseで入手できる。
関連論文リスト
- Train Till You Drop: Towards Stable and Robust Source-free Unsupervised 3D Domain Adaptation [62.889835139583965]
本研究では,3次元セマンティックセグメンテーションのための非教師なし領域適応(SFUDA)の問題に取り組む。
ソースデータにアクセスすることなく、ラベルのないターゲットドメインでドメイン適応を実行する。
既存のSFUDAアプローチの一般的な問題は、あるトレーニング時間後にパフォーマンスが低下することです。
論文 参考訳(メタデータ) (2024-09-06T17:13:14Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Multi-cropping Contrastive Learning and Domain Consistency for
Unsupervised Image-to-Image Translation [5.562419999563734]
マルチクロップ型コントラスト学習とドメイン整合性に基づく新しい教師なし画像から画像への翻訳フレームワーク MCDUT を提案する。
多くの画像と画像の翻訳タスクにおいて,本手法は最先端の結果を達成し,その利点は比較実験とアブレーション研究によって証明されている。
論文 参考訳(メタデータ) (2023-04-24T16:20:28Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Feather-Light Fourier Domain Adaptation in Magnetic Resonance Imaging [2.024988885579277]
ディープラーニングモデルの一般化性は、列車(ソースドメイン)とテスト(ターゲットドメイン)セットの分布の違いによって大きく影響を受ける可能性がある。
テスト時間領域適応を実現するための,極めて軽量かつ透明なアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-31T17:28:42Z) - Contrastive Monotonic Pixel-Level Modulation [5.8955718159354]
教師なしかつコントラッシブな連続変調モデルであるMonoPixという新しい定式化を提案する。
我々はさらに一歩進めて、重要なが以前に適切に扱えない画素レベルの空間制御を可能にする。
AFHQ cat-dog や Yosemite サマーウィンター翻訳など,さまざまな継続的マッピングタスクに対して,最先端のパフォーマンスが検証されている。
論文 参考訳(メタデータ) (2022-07-23T13:21:24Z) - Style Interleaved Learning for Generalizable Person Re-identification [69.03539634477637]
DG ReIDトレーニングのための新しいスタイルインターリーブラーニング(IL)フレームワークを提案する。
従来の学習戦略とは異なり、ILには2つの前方伝播と1つの後方伝播が組み込まれている。
我々のモデルはDG ReIDの大規模ベンチマークにおいて最先端の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-07-07T07:41:32Z) - Fix the Noise: Disentangling Source Feature for Transfer Learning of
StyleGAN [27.839719044644472]
StyleGANは、特にドメイン翻訳において、様々なタスクを解く大きな可能性を示している。
従来の手法では、転送学習中にウェイトを交換したり凍結したりすることで、ソースモデルを利用した。
本稿では,これらの制約を克服するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-29T13:21:14Z) - FDA: Fourier Domain Adaptation for Semantic Segmentation [82.4963423086097]
本稿では,教師なし領域適応の簡易な手法について述べる。一方の低周波スペクトルを他方と交換することにより,音源と対象分布の相違を低減できる。
本手法を意味的セグメンテーション(semantic segmentation, 意味的セグメンテーション, 意味的セグメンテーション)で説明する。
以上の結果から,より高度な手法が学習に苦しむデータにおいて,単純な手順であってもニュアンス変動を低減できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-04-11T22:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。