論文の概要: Harnessing the Conditioning Sensorium for Improved Image Translation
- arxiv url: http://arxiv.org/abs/2110.06443v1
- Date: Wed, 13 Oct 2021 02:07:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 13:42:09.939003
- Title: Harnessing the Conditioning Sensorium for Improved Image Translation
- Title(参考訳): 画像翻訳改善のためのコンディショニング・センタリウムの調和
- Authors: Cooper Nederhood and Nicholas Kolkin and Deqing Fu and Jason Salavon
- Abstract要約: マルチモーダル・ドメイン・トランスレーション(マルチモーダル・ドメイン・トランスレーション)は、通常、ある局所的な属性を「コンテンツ」イメージから継承する新しいイメージを指す。
本稿では,非絡み合った「コンテンツ」表現と「スタイル」表現をスクラッチから学習するための新しいアプローチを提案する。
既成モデルから抽出した条件情報に基づいて「コンテンツ」を定義する。
次に、再構成対象のセットを最適化し易い方法で、スタイル抽出器とイメージデコーダを訓練する。
- 参考スコア(独自算出の注目度): 2.9631016562930546
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-modal domain translation typically refers to synthesizing a novel image
that inherits certain localized attributes from a 'content' image (e.g. layout,
semantics, or geometry), and inherits everything else (e.g. texture, lighting,
sometimes even semantics) from a 'style' image. The dominant approach to this
task is attempting to learn disentangled 'content' and 'style' representations
from scratch. However, this is not only challenging, but ill-posed, as what
users wish to preserve during translation varies depending on their goals.
Motivated by this inherent ambiguity, we define 'content' based on conditioning
information extracted by off-the-shelf pre-trained models. We then train our
style extractor and image decoder with an easy to optimize set of
reconstruction objectives. The wide variety of high-quality pre-trained models
available and simple training procedure makes our approach straightforward to
apply across numerous domains and definitions of 'content'. Additionally it
offers intuitive control over which aspects of 'content' are preserved across
domains. We evaluate our method on traditional, well-aligned, datasets such as
CelebA-HQ, and propose two novel datasets for evaluation on more complex
scenes: ClassicTV and FFHQ-Wild. Our approach, Sensorium, enables higher
quality domain translation for more complex scenes.
- Abstract(参考訳): マルチモーダル・ドメイン・トランスフォーメーション(英: multi-modal domain translation)とは、ある局所的な属性を「レイアウト、セマンティクス、幾何学」の画像から継承し、他のもの(テクスチャ、照明、時にはセマンティクス)を「スタイル」画像から継承する新しいイメージをいう。
このタスクの主要なアプローチは、切り離された'コンテンツ'と'スタイル'の表現をゼロから学ぼうとするものである。
しかし、翻訳中に保存したいものが目的によって異なるため、これは困難であるだけでなく、不適切である。
このような曖昧さを動機として,既成モデルから抽出した条件情報に基づいて「コンテンツ」を定義する。
次に、再構成対象のセットを簡単に最適化して、スタイル抽出器とイメージデコーダを訓練する。
高品質な事前学習モデルが多種多様で、簡単なトレーニング手順によって、我々のアプローチは、多くのドメインと'コンテンツ'の定義に簡単に適用できます。
さらに、「コンテンツ」のどの側面がドメインにまたがって保存されるのかを直感的に制御できる。
本手法は,celeba-hq のような従来型のデータセット上で評価し,より複雑なシーンで評価するための2つの新しいデータセット, classictv と ffhq-wild を提案する。
当社のアプローチであるsensoriumは,より複雑なシーンに対して,高品質なドメイン変換を可能にします。
関連論文リスト
- Few-shot Image Generation via Style Adaptation and Content Preservation [60.08988307934977]
我々は、GAN転送に画像翻訳モジュールを導入し、モジュールはジェネレータにスタイルとコンテンツを分離するように教える。
我々の手法はショット設定がほとんどない状態で、常に最先端の手法を超越している。
論文 参考訳(メタデータ) (2023-11-30T01:16:53Z) - Masked and Adaptive Transformer for Exemplar Based Image Translation [16.93344592811513]
ドメイン間のセマンティックマッチングは難しい。
正確なクロスドメイン対応を学習するためのマスク付き適応変換器(MAT)を提案する。
品質識別型スタイル表現を得るための新しいコントラスト型スタイル学習法を考案する。
論文 参考訳(メタデータ) (2023-03-30T03:21:14Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - Context-Aware Image Inpainting with Learned Semantic Priors [100.99543516733341]
欠落した内容を推定するために意味的に意味のある前文タスクを導入する。
本研究では,グローバルなセマンティクスと局所的な特徴を適応的に統合した文脈認識型画像インパインティングモデルを提案する。
論文 参考訳(メタデータ) (2021-06-14T08:09:43Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。