論文の概要: Scaling-up Disentanglement for Image Translation
- arxiv url: http://arxiv.org/abs/2103.14017v1
- Date: Thu, 25 Mar 2021 17:52:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:48:28.314787
- Title: Scaling-up Disentanglement for Image Translation
- Title(参考訳): 画像翻訳のためのスケールアップ・アンタングルメント
- Authors: Aviv Gabbay and Yedid Hoshen
- Abstract要約: ラベル付き属性とラベルなし属性を分離する単一のフレームワークであるOverLORDを提案する。
私達は反対の訓練か建築バイアスに頼りません。
大規模な評価では,最先端手法よりも翻訳品質が高く,出力の多様性も優れている。
- 参考スコア(独自算出の注目度): 40.7636450847048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image translation methods typically aim to manipulate a set of labeled
attributes (given as supervision at training time e.g. domain label) while
leaving the unlabeled attributes intact. Current methods achieve either: (i)
disentanglement, which exhibits low visual fidelity and can only be satisfied
where the attributes are perfectly uncorrelated. (ii) visually-plausible
translations, which are clearly not disentangled. In this work, we propose
OverLORD, a single framework for disentangling labeled and unlabeled attributes
as well as synthesizing high-fidelity images, which is composed of two stages;
(i) Disentanglement: Learning disentangled representations with latent
optimization. Differently from previous approaches, we do not rely on
adversarial training or any architectural biases. (ii) Synthesis: Training
feed-forward encoders for inferring the learned attributes and tuning the
generator in an adversarial manner to increase the perceptual quality. When the
labeled and unlabeled attributes are correlated, we model an additional
representation that accounts for the correlated attributes and improves
disentanglement. We highlight that our flexible framework covers multiple image
translation settings e.g. attribute manipulation, pose-appearance translation,
segmentation-guided synthesis and shape-texture transfer. In an extensive
evaluation, we present significantly better disentanglement with higher
translation quality and greater output diversity than state-of-the-art methods.
- Abstract(参考訳): 画像翻訳手法は通常、ラベル付き属性のセット(例えばトレーニング時間に監督として登録される)を操作することを目的としている。
ドメインラベル) ラベルのない属性をそのまま残しながら。
現在の方法では: (i)不等角性(disentanglement)は低い視覚的忠実度を示し、属性が完全に無関係な場合にのみ満足できる。
(ii)視認可能な翻訳は、明らかに乱れていない。
本稿では,ラベル付き属性とラベル付き属性を分離する単一フレームワークであるoverlordと,2段階からなる高忠実度画像の合成を提案する。
以前のアプローチとは異なり、私たちは敵のトレーニングやアーキテクチャ上の偏見に依存していません。
(ii)合成:学習属性を推論し、知覚品質を高めるために逆向きに生成器を調整するためのフィードフォワードエンコーダを訓練する。
ラベル付き属性とラベルなし属性が相関している場合、相関属性を考慮し、歪みを改善する追加表現をモデル化する。
当社のフレキシブルフレームワークでは,複数の画像翻訳設定を対象としています。
属性操作、ポーズ-外観変換、セグメント化誘導合成、形状-テクスチャ転送。
大規模な評価では,最先端手法よりも翻訳品質が高く,出力の多様性も優れている。
関連論文リスト
- StegoGAN: Leveraging Steganography for Non-Bijective Image-to-Image Translation [18.213286385769525]
CycleGANベースの手法は、生成した画像のミスマッチした情報を隠して、サイクル一貫性の目的をバイパスすることが知られている。
本稿では,ステガノグラフィーを利用した新しいモデルであるStegoGANを紹介した。
我々のアプローチは、追加の後処理や監督を必要とすることなく、翻訳画像のセマンティック一貫性を高める。
論文 参考訳(メタデータ) (2024-03-29T12:23:58Z) - Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - LANIT: Language-Driven Image-to-Image Translation for Unlabeled Data [39.421312439022316]
我々はLANITと呼ばれるLANguage-driven Image-to-image Translationモデルを提案する。
画像と属性の類似性はサンプル単位のドメインラベルを示す。
いくつかの標準ベンチマークの実験では、LANITは既存のモデルに匹敵する、あるいは優れた性能を達成している。
論文 参考訳(メタデータ) (2022-08-31T14:30:00Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z) - Semi-supervised Semantic Segmentation with Directional Context-aware
Consistency [66.49995436833667]
我々は、ラベル付きデータの小さなセットに、全くラベル付けされていない画像のより大きなコレクションを提供する半教師付きセグメンテーション問題に焦点をあてる。
好ましいハイレベル表現は、自己認識を失わずにコンテキスト情報をキャプチャするべきである。
我々は,DCロス(Directional Contrastive Loss)を画素対ピクセルの整合性を達成するために提示する。
論文 参考訳(メタデータ) (2021-06-27T03:42:40Z) - Contrastive Learning for Unsupervised Image-to-Image Translation [10.091669091440396]
コントラスト学習に基づく教師なし画像から画像への翻訳手法を提案する。
一対の画像をランダムにサンプリングし、ジェネレータに元の構造を維持しながら、その外観を別の方向に変更するように訓練する。
実験結果から,本手法は視覚的品質と翻訳精度において,教師なしベースラインよりも優れていた。
論文 参考訳(メタデータ) (2021-05-07T08:43:38Z) - A Novel Estimator of Mutual Information for Learning to Disentangle
Textual Representations [27.129551973093008]
本稿では、属性とエンコーダの潜入コードの間の相互情報に有する新しい変動上界について紹介する。
これは、Renyiの発散による近似誤差の制御を目標とし、より良い離散表現と望ましい離散度の正確な制御の両方をもたらす。
公平な分類とテキストスタイルの転送タスクにおいて、この方法の優位性を示す。
論文 参考訳(メタデータ) (2021-05-06T14:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。