論文の概要: Constraining Multi-scale Pairwise Features between Encoder and Decoder
Using Contrastive Learning for Unpaired Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2211.10867v1
- Date: Sun, 20 Nov 2022 04:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 20:16:25.031806
- Title: Constraining Multi-scale Pairwise Features between Encoder and Decoder
Using Contrastive Learning for Unpaired Image-to-Image Translation
- Title(参考訳): 画像対画像変換のためのコントラスト学習を用いたエンコーダとデコーダ間のマルチスケールなペアワイズ特徴の制約
- Authors: Xiuding Cai, Yaoyao Zhu, Dong Miao, Linjie Fu, Yu Yao
- Abstract要約: 本稿では,EnCoという一方的な画像翻訳フレームワークを提案する。
まず、生成器のエンコーダとデコーダのマルチスケールなペアワイズ機能に対する明示的な制約を示す。
第2に、ランダムなネガティブサンプリングを置き換えるために、識別的注意誘導型ネガティブサンプリング戦略を提案する。
- 参考スコア(独自算出の注目度): 5.362301424239865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning (CL) has shown great potential in image-to-image
translation (I2I). Current CL-based I2I methods usually re-exploit the encoder
of the generator to maximize the mutual information between the input and
generated images, which does not exert an active effect on the decoder part. In
addition, though negative samples play a crucial role in CL, most existing
methods adopt a random sampling strategy, which may be less effective. In this
paper, we rethink the CL paradigm in the unpaired I2I tasks from two
perspectives and propose a new one-sided image translation framework called
EnCo. First, we present an explicit constraint on the multi-scale pairwise
features between the encoder and decoder of the generator to guarantee the
semantic consistency of the input and generated images. Second, we propose a
discriminative attention-guided negative sampling strategy to replace the
random negative sampling, which significantly improves the performance of the
generative model with an almost negligible computational overhead. Compared
with existing methods, EnCo acts more effective and efficient. Extensive
experiments on several popular I2I datasets demonstrate the effectiveness and
advantages of our proposed approach, and we achieve several state-of-the-art
compared to previous methods.
- Abstract(参考訳): コントラスト学習(CL)は画像間翻訳(I2I)において大きな可能性を示している。
現在のCLベースのI2I法は、通常はジェネレータのエンコーダを再探索し、入力された画像と生成された画像の相互情報を最大化する。
さらに、負のサンプルはclにおいて重要な役割を果たすが、既存の方法の多くはランダムサンプリング戦略を採用している。
本稿では,未ペアI2IタスクにおけるCLパラダイムを再考し,EnCoと呼ばれる一方的な画像翻訳フレームワークを提案する。
まず、入力画像と生成画像の意味的一貫性を保証するために、ジェネレータのエンコーダとデコーダの間のマルチスケールなペアワイズ特徴の明示的な制約を示す。
第二に、ランダムな負のサンプリングを置き換える識別的注意誘導型負のサンプリング戦略を提案し、ほぼ無視可能な計算オーバーヘッドで生成モデルの性能を大幅に向上させる。
既存の方法と比較して、EnCoはより効率的かつ効率的に機能する。
一般的なi2iデータセットの広範囲な実験により,提案手法の有効性と利点を実証し,従来の手法と比較した。
関連論文リスト
- Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - {\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。
本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。
muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文 参考訳(メタデータ) (2022-11-23T11:26:24Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - The Power of Triply Complementary Priors for Image Compressive Sensing [89.14144796591685]
本稿では,一対の相補的な旅先を含むLRD画像モデルを提案する。
次に、画像CSのためのRDモデルに基づく新しいハイブリッド・プラグイン・アンド・プレイ・フレームワークを提案する。
そこで,提案したH-based image CS問題の解法として,単純で効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T08:17:44Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。