論文の概要: Rethinking the Paradigm of Content Constraints in Unpaired
Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2211.10867v3
- Date: Sat, 6 Jan 2024 05:42:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 00:36:05.158454
- Title: Rethinking the Paradigm of Content Constraints in Unpaired
Image-to-Image Translation
- Title(参考訳): 画像対画像翻訳におけるコンテンツ制約のパラダイム再考
- Authors: Xiuding Cai, Yaoyao Zhu, Dong Miao, Linjie Fu, Yu Yao
- Abstract要約: 本稿では,パッチレベルの特徴の潜在空間における表現的類似性を制約することにより,コンテンツ管理のシンプルかつ効率的な方法であるEnCoを提案する。
類似性関数に対しては、I2Iタスクで広く使われている対照的な損失ではなく、単純なMSE損失を用いる。
さらに, 識別者によるサンプリングにおける役割を再考し, ランダムサンプリングの代替として, DAG(Disdisnative attention-guided)パッチサンプリング戦略を提案する。
- 参考スコア(独自算出の注目度): 9.900050049833986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In an unpaired setting, lacking sufficient content constraints for
image-to-image translation (I2I) tasks, GAN-based approaches are usually prone
to model collapse. Current solutions can be divided into two categories,
reconstruction-based and Siamese network-based. The former requires that the
transformed or transforming image can be perfectly converted back to the
original image, which is sometimes too strict and limits the generative
performance. The latter involves feeding the original and generated images into
a feature extractor and then matching their outputs. This is not efficient
enough, and a universal feature extractor is not easily available. In this
paper, we propose EnCo, a simple but efficient way to maintain the content by
constraining the representational similarity in the latent space of patch-level
features from the same stage of the \textbf{En}coder and de\textbf{Co}der of
the generator. For the similarity function, we use a simple MSE loss instead of
contrastive loss, which is currently widely used in I2I tasks. Benefits from
the design, EnCo training is extremely efficient, while the features from the
encoder produce a more positive effect on the decoding, leading to more
satisfying generations. In addition, we rethink the role played by
discriminators in sampling patches and propose a discriminative
attention-guided (DAG) patch sampling strategy to replace random sampling. DAG
is parameter-free and only requires negligible computational overhead, while
significantly improving the performance of the model. Extensive experiments on
multiple datasets demonstrate the effectiveness and advantages of EnCo, and we
achieve multiple state-of-the-art compared to previous methods. Our code is
available at https://github.com/XiudingCai/EnCo-pytorch.
- Abstract(参考訳): 画像から画像への変換(I2I)タスクに十分なコンテンツ制約が欠如している未ペア環境では、GANベースのアプローチは通常、崩壊する傾向にある。
現在のソリューションは、再構築ベースとシームズネットワークベースという2つのカテゴリに分けられる。
前者は、変換された画像または変換された画像が元の画像に完全に変換されるように要求する。
後者は、オリジナルイメージと生成されたイメージを特徴抽出器に供給し、出力をマッチングする。
これは十分に効率的ではなく、普遍的な特徴抽出器は簡単には利用できない。
本稿では,パッチレベルの特徴の潜在空間における表現的類似性を,生成器の \textbf{en}coder と de\textbf{co}der の同じ段階から制約することにより,コンテンツの保守をシンプルかつ効率的に行う enco を提案する。
類似度関数では、コントラスト損失の代わりに単純なmse損失を使い、現在i2iタスクで広く使われている。
設計の利点は、EnCoのトレーニングは非常に効率的であり、エンコーダの機能はデコードによりポジティブな効果をもたらし、より満足できる世代を生み出します。
さらに, 識別者によるサンプリングにおける役割を再考し, ランダムサンプリングを代替する差別的注意誘導型 (DAG) パッチサンプリング戦略を提案する。
DAGはパラメータフリーであり、計算オーバーヘッドは無視できるが、モデルの性能は大幅に改善される。
複数のデータセットに対する大規模な実験は、EnCoの有効性と利点を示し、従来の方法と比較して複数の最先端を実現する。
私たちのコードはhttps://github.com/xiudingcai/enco-pytorchで利用可能です。
関連論文リスト
- Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - {\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。
本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。
muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文 参考訳(メタデータ) (2022-11-23T11:26:24Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - The Power of Triply Complementary Priors for Image Compressive Sensing [89.14144796591685]
本稿では,一対の相補的な旅先を含むLRD画像モデルを提案する。
次に、画像CSのためのRDモデルに基づく新しいハイブリッド・プラグイン・アンド・プレイ・フレームワークを提案する。
そこで,提案したH-based image CS問題の解法として,単純で効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T08:17:44Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。