論文の概要: Evaluation of Correctness in Unsupervised Many-to-Many Image Translation
- arxiv url: http://arxiv.org/abs/2103.15727v1
- Date: Mon, 29 Mar 2021 16:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 18:38:15.834723
- Title: Evaluation of Correctness in Unsupervised Many-to-Many Image Translation
- Title(参考訳): 教師なし多対多画像翻訳における正確性の評価
- Authors: Dina Bashkirova, Ben Usman and Kate Saenko
- Abstract要約: Unsupervised many-to-many image-to-image (UMMI2I) 翻訳メソッドは、ターゲットドメインから実行可能な例を生成します。
UMMI2I法の意味的正しさを評価するための一連のベンチマークとメトリクスを提案する。
- 参考スコア(独自算出の注目度): 61.44666983942965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given an input image from a source domain and a "guidance" image from a
target domain, unsupervised many-to-many image-to-image (UMMI2I) translation
methods seek to generate a plausible example from the target domain that
preserves domain-invariant information of the input source image and inherits
the domain-specific information from the guidance image. For example, when
translating female faces to male faces, the generated male face should have the
same expression, pose and hair color as the input female image, and the same
facial hairstyle and other male-specific attributes as the guidance male image.
Current state-of-the art UMMI2I methods generate visually pleasing images, but,
since for most pairs of real datasets we do not know which attributes are
domain-specific and which are domain-invariant, the semantic correctness of
existing approaches has not been quantitatively evaluated yet. In this paper,
we propose a set of benchmarks and metrics for the evaluation of semantic
correctness of UMMI2I methods. We provide an extensive study how well the
existing state-of-the-art UMMI2I translation methods preserve domain-invariant
and manipulate domain-specific attributes, and discuss the trade-offs shared by
all methods, as well as how different architectural choices affect various
aspects of semantic correctness.
- Abstract(参考訳): 対象領域からの入力画像と、対象領域からの「誘導」画像とが与えられた場合、教師なし多対多画像変換法は、入力されたソース画像のドメイン不変情報を保存し、誘導画像からドメイン固有情報を継承する対象領域からの可視例を生成する。
例えば、女性顔を男性の顔に翻訳する場合、生成した男性の顔は、入力された女性像と同じ表情、ポーズ、髪色、およびガイダンス男性像と同じ顔髪型および他の男性特有の属性を持つべきである。
現在最先端のUMMI2I手法は視覚的に快く画像を生成するが、実際のデータセットではどの属性がドメイン固有であり、どの属性がドメイン不変かを知らないため、既存のアプローチの意味的正当性はまだ定量的に評価されていない。
本稿では,UMMI2I法における意味的正当性評価のためのベンチマークと指標を提案する。
本稿では,従来のUMMI2I翻訳手法がドメイン不変性を保ち,ドメイン固有属性を操作し,すべてのメソッドが共有するトレードオフについて論じるとともに,異なるアーキテクチャ選択が意味的正当性の様々な側面にどのように影響するかを論じる。
関連論文リスト
- Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - Domain Agnostic Image-to-image Translation using Low-Resolution
Conditioning [6.470760375991825]
ドメインが関係するきめ細かい問題に対して,ドメインに依存しないi2i法を提案する。
本稿では、生成モデルを訓練し、関連するソース画像の固有情報を共有する画像を生成する新しいアプローチを提案する。
CelebA-HQ と AFHQ のデータセット上で,視覚的品質の向上を実証し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-05-08T19:58:49Z) - Disentangled Unsupervised Image Translation via Restricted Information
Flow [61.44666983942965]
多くの最先端のメソッドは、所望の共有vs固有の分割をアーキテクチャにハードコードする。
帰納的アーキテクチャバイアスに依存しない新しい手法を提案する。
提案手法は,2つの合成データセットと1つの自然なデータセットに対して一貫した高い操作精度を実現する。
論文 参考訳(メタデータ) (2021-11-26T00:27:54Z) - Semantic Consistency in Image-to-Image Translation for Unsupervised
Domain Adaptation [22.269565708490465]
Unsupervised Domain Adaptation (UDA)は、ソースドメインでトレーニングされたモデルを、ラベル付きデータが使用できない新しいターゲットドメインに適応させることを目的としている。
UDAの整合性正規化手法と組み合わせて意味論的に一貫した画像から画像への変換法を提案する。
論文 参考訳(メタデータ) (2021-11-05T14:22:20Z) - SMILE: Semantically-guided Multi-attribute Image and Layout Editing [154.69452301122175]
GAN(Generative Adversarial Networks)の導入以来、属性画像操作は非常に活発な話題となっている。
対象領域の下位領域情報のみを使用しながら、ランダムノイズや画像によって誘導される全ての属性を処理するマルチモーダル表現を提案する。
本手法では,イメージを参照として,あるいはスタイル分布空間を探索することにより,細粒度や粗粒度などの属性の追加,削除,変更を行うことができる。
論文 参考訳(メタデータ) (2020-10-05T20:15:21Z) - TriGAN: Image-to-Image Translation for Multi-Source Domain Adaptation [82.52514546441247]
本稿では,ジェネレーティブ・アドバイサル・ネットワークに基づくマルチソース・ドメイン適応(MSDA)の最初のアプローチを提案する。
本手法は,画像の出現がドメイン,スタイル,内容の3つの要因に依存するという観察に着想を得たものである。
提案手法はMSDAベンチマークを用いて試行し,最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:07:22Z) - Cross-domain Correspondence Learning for Exemplar-based Image
Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。
出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。
本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-12T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。