論文の概要: SHUNIT: Style Harmonization for Unpaired Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2301.04685v1
- Date: Wed, 11 Jan 2023 19:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 14:17:31.788626
- Title: SHUNIT: Style Harmonization for Unpaired Image-to-Image Translation
- Title(参考訳): SHUNIT:未ペア画像変換のためのスタイル調和
- Authors: Seokbeom Song, Suhyeon Lee, Hongje Seong, Kyoungwon Min, Euntai Kim
- Abstract要約: 未ペアI2I翻訳のためのスタイル調和法(SHUNIT)を提案する。
我々のSHUNITは、クラスメモリと元のソースイメージスタイルから取得したターゲットドメインスタイルを調和させて、新しいスタイルを生成する。
提案手法を広範囲な実験により検証し,最新のベンチマークセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 14.485088590863327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel solution for unpaired image-to-image (I2I) translation. To
translate complex images with a wide range of objects to a different domain,
recent approaches often use the object annotations to perform per-class
source-to-target style mapping. However, there remains a point for us to
exploit in the I2I. An object in each class consists of multiple components,
and all the sub-object components have different characteristics. For example,
a car in CAR class consists of a car body, tires, windows and head and tail
lamps, etc., and they should be handled separately for realistic I2I
translation. The simplest solution to the problem will be to use more detailed
annotations with sub-object component annotations than the simple object
annotations, but it is not possible. The key idea of this paper is to bypass
the sub-object component annotations by leveraging the original style of the
input image because the original style will include the information about the
characteristics of the sub-object components. Specifically, for each pixel, we
use not only the per-class style gap between the source and target domains but
also the pixel's original style to determine the target style of a pixel. To
this end, we present Style Harmonization for unpaired I2I translation (SHUNIT).
Our SHUNIT generates a new style by harmonizing the target domain style
retrieved from a class memory and an original source image style. Instead of
direct source-to-target style mapping, we aim for source and target styles
harmonization. We validate our method with extensive experiments and achieve
state-of-the-art performance on the latest benchmark sets. The source code is
available online: https://github.com/bluejangbaljang/SHUNIT.
- Abstract(参考訳): 画像対画像変換(i2i)のための新しい解法を提案する。
複雑なイメージを広い範囲のオブジェクトで異なるドメインに変換するために、最近のアプローチでは、クラス毎のソースからターゲットへのマッピングを行うためにオブジェクトアノテーションを使うことが多い。
しかし、私たちがI2Iで活用すべきポイントは残っています。
各クラスのオブジェクトは複数のコンポーネントで構成され、すべてのサブオブジェクトコンポーネントは異なる特性を持っています。
例えば、カークラスの車は車体、タイヤ、窓、ヘッド、テールランプなどで構成されており、現実的なi2i翻訳のために別々に扱う必要がある。
この問題に対する最も単純な解決策は、単純なオブジェクトアノテーションよりもサブオブジェクトコンポーネントアノテーションを使ったより詳細なアノテーションを使うことですが、それは不可能です。
本論文の主な考え方は,サブオブジェクトコンポーネントのアノテーションを回避し,入力画像の本来のスタイルを活用することである。
具体的には、各画素に対して、ソースとターゲットドメイン間のクラスごとのスタイルギャップだけでなく、画素の本来のスタイルを使って、画素のターゲットスタイルを決定する。
そこで本稿では,非ペア化i2i翻訳(shunit)のスタイル調和について述べる。
クラスメモリから取得した対象ドメインスタイルと元のソースイメージスタイルを調和させることで,新たなスタイルを生成します。
ソースからターゲットへの直接マッピングではなく、ソースとターゲットのスタイルの調和を目指しています。
我々は,本手法を広範囲な実験で検証し,最新のベンチマークで最新性能を得る。
ソースコードはhttps://github.com/bluejangbaljang/shunit。
関連論文リスト
- DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - Soulstyler: Using Large Language Model to Guide Image Style Transfer for
Target Object [9.759321877363258]
Soulstylerを使えば、ユーザーは簡単なテキスト記述を通じて画像中の特定のオブジェクトのスタイル化をガイドできる。
テキストを解析し、スタイル化の目標と特定のスタイルを特定するために、大きな言語モデルを導入する。
また,特定の対象オブジェクトに対してのみスタイル転送が行われることを保証する,新たなローカライズされたテキストイメージブロックマッチング損失を導入する。
論文 参考訳(メタデータ) (2023-11-22T18:15:43Z) - Sem-CS: Semantic CLIPStyler for Text-Based Image Style Transfer [4.588028371034406]
本稿ではセマンティックCLIPStyler(Semantic CLIPStyler)を提案する。
Sem-CSはまずコンテンツイメージを正当で非正当なオブジェクトに分割し、所定のスタイルのテキスト記述に基づいて芸術的なスタイルを転送する。
DISTS,NIMA,ユーザスタディスコアなどの実験結果から,提案手法は質的,定量的な性能に優れることが示された。
論文 参考訳(メタデータ) (2023-07-12T05:59:42Z) - DSI2I: Dense Style for Unpaired Image-to-Image Translation [70.93865212275412]
Inpaired exemplar-based image-to-image (UEI2I) 翻訳は、ソース画像をターゲット画像領域に変換する。
我々は,スタイルを高密度な特徴写像として表現し,外部意味情報を必要とせず,よりきめ細かなソース画像の転送を可能にすることを提案する。
以上の結果から,本手法による翻訳は,より多様であり,資料内容の保存性が向上し,最先端の手法と比較すると,先例に近づいたことが示唆された。
論文 参考訳(メタデータ) (2022-12-26T18:45:25Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - Image-to-Image Translation with Low Resolution Conditioning [0.28675177318965034]
本研究の目的は、高解像度(HR)画像から細部を転写して、ターゲットの粗い低解像度(LR)画像表現に適合させることである。
これは、あるイメージスタイルをターゲットコンテンツに変換することに集中する以前の方法とは異なる。
提案手法は, HRターゲット画像を生成するための生成モデルをトレーニングすることに依存し, 1) 対応するソース画像の固有情報を共有すること, 2) ダウンスケール時のLRターゲット画像と正しく一致させることである。
論文 参考訳(メタデータ) (2021-07-23T14:22:12Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。