論文の概要: Bridging the Gap between Label- and Reference-based Synthesis in
Multi-attribute Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2110.05055v1
- Date: Mon, 11 Oct 2021 07:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 15:14:14.986796
- Title: Bridging the Gap between Label- and Reference-based Synthesis in
Multi-attribute Image-to-Image Translation
- Title(参考訳): 多属性画像翻訳におけるラベルと参照ベース合成のギャップを埋める
- Authors: Qiusheng Huang, Zhilin Zheng, Xueqi Hu, Li Sun, Qingli Li
- Abstract要約: ラベルベースまたは参照ベースのいずれかの2種類の合成には、大きな違いがある。
本稿では,多属性I2ITの課題において,それらのギャップを埋めることを目的としている。
- 参考スコア(独自算出の注目度): 10.97268741145782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The image-to-image translation (I2IT) model takes a target label or a
reference image as the input, and changes a source into the specified target
domain. The two types of synthesis, either label- or reference-based, have
substantial differences. Particularly, the label-based synthesis reflects the
common characteristics of the target domain, and the reference-based shows the
specific style similar to the reference. This paper intends to bridge the gap
between them in the task of multi-attribute I2IT. We design the label- and
reference-based encoding modules (LEM and REM) to compare the domain
differences. They first transfer the source image and target label (or
reference) into a common embedding space, by providing the opposite directions
through the attribute difference vector. Then the two embeddings are simply
fused together to form the latent code S_rand (or S_ref), reflecting the domain
style differences, which is injected into each layer of the generator by SPADE.
To link LEM and REM, so that two types of results benefit each other, we
encourage the two latent codes to be close, and set up the cycle consistency
between the forward and backward translations on them. Moreover, the
interpolation between the S_rand and S_ref is also used to synthesize an extra
image. Experiments show that label- and reference-based synthesis are indeed
mutually promoted, so that we can have the diverse results from LEM, and high
quality results with the similar style of the reference.
- Abstract(参考訳): 画像画像変換(I2IT)モデルは、ターゲットラベルまたは参照イメージを入力として、ソースを指定されたターゲットドメインに変更する。
ラベルベースか参照ベースかの2種類の合成には大きな違いがある。
特に、ラベルベース合成は対象ドメインの共通特性を反映し、参照ベースは参照に類似した特定のスタイルを示す。
本稿では,多属性I2ITの課題において,それらのギャップを埋めることを目的としている。
ラベルと参照に基づく符号化モジュール(LEMとREM)を設計し、ドメイン差を比較する。
まず、ソース画像とターゲットラベル(または参照)を共通の埋め込み空間に転送し、属性差分ベクトルを介して反対方向を提供する。
次に、2つの埋め込みを単純に融合して潜伏コードS_rand(またはS_ref)を形成し、SPADEによってジェネレータの各層に注入されるドメインスタイルの違いを反映する。
lemとremをリンクするため、2つのタイプの結果が互いに有益になるように、2つの潜在コードに近いことを奨励し、前方と後方の翻訳間のサイクル一貫性を設定します。
また、余剰画像を合成するために、S_randとS_refとの補間も用いられる。
実験により、ラベルと参照ベースの合成は相互に促進され、lemによる多様な結果と、参照の類似したスタイルで高品質な結果が得られることが示されている。
関連論文リスト
- DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Improving Reference-based Distinctive Image Captioning with Contrastive
Rewards [52.406331702017596]
近年のDIC法では,対象画像と意味相似参照画像のセットを比較して,特徴的なキャプションを生成する方法が提案されている。
本稿では,2つの新しいRef-DICベンチマークを提案し,TransformerベースのRef-DICベースライントランスDICを開発した。
より信頼性の高いベンチマークを行うために、Ref-DICのためのDisCIDErという新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-06-25T14:37:13Z) - DSI2I: Dense Style for Unpaired Image-to-Image Translation [70.93865212275412]
Inpaired exemplar-based image-to-image (UEI2I) 翻訳は、ソース画像をターゲット画像領域に変換する。
我々は,スタイルを高密度な特徴写像として表現し,外部意味情報を必要とせず,よりきめ細かなソース画像の転送を可能にすることを提案する。
以上の結果から,本手法による翻訳は,より多様であり,資料内容の保存性が向上し,最先端の手法と比較すると,先例に近づいたことが示唆された。
論文 参考訳(メタデータ) (2022-12-26T18:45:25Z) - Target-oriented Sentiment Classification with Sequential Cross-modal
Semantic Graph [27.77392307623526]
マルチモーダル・アスペクトベース感情分類(マルチモーダル・アスペクトベース感情分類、英: Multi-modal aspect-based sentiment classification、MABSC)は、文と画像に言及された対象エンティティの感情を分類するタスクである。
以前の手法では、画像とテキストの微妙なセマンティックな関連を考慮できなかった。
本稿では,シーケンシャルなクロスモーダルなセマンティックグラフを用いたエンコーダ・デコーダの感情分類フレームワークであるSeqCSGを提案する。
論文 参考訳(メタデータ) (2022-08-19T16:04:29Z) - Rethinking the Reference-based Distinctive Image Captioning [17.724543105544935]
近年の研究では、ターゲット画像と意味相似参照画像のセットを比較して、特徴的なキャプションを生成することを提案する。
我々はTransDICと呼ばれる強力なTransformerベースのRef-DICベースラインを開発した。
より信頼性の高いベンチマークを行うために、Ref-DICのためのDisCIDErという新しい評価指標を提案する。
論文 参考訳(メタデータ) (2022-07-22T14:49:54Z) - Heterogeneous Semantic Transfer for Multi-label Recognition with Partial Labels [70.45813147115126]
部分ラベル付きマルチラベル画像認識(MLR-PL)は、アノテーションのコストを大幅に削減し、大規模なMLRを促進する。
それぞれの画像と異なる画像の間に強い意味的相関が存在することがわかった。
これらの相関関係は、未知のラベルを取得するために、既知のラベルが持つ知識を転送するのに役立ちます。
論文 参考訳(メタデータ) (2022-05-23T08:37:38Z) - Structured Semantic Transfer for Multi-Label Recognition with Partial
Labels [85.6967666661044]
部分ラベル付きマルチラベル認識モデルのトレーニングを可能にする構造化意味伝達(SST)フレームワークを提案する。
このフレームワークは2つの相補的なトランスファーモジュールから構成され、インテリアイメージとクロスイメージセマンティック相関を探索する。
Microsoft COCO、Visual Genome、Pascal VOCデータセットの実験は、提案されたSSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスが得られることを示している。
論文 参考訳(メタデータ) (2021-12-21T02:15:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。