Fugu-MT 論文翻訳(概要): Rethinking the Paradigm of Content Constraints in GAN-based Unpaired Image-to-Image Translation

論文の概要: Rethinking the Paradigm of Content Constraints in GAN-based Unpaired Image-to-Image Translation

arxiv url: http://arxiv.org/abs/2211.10867v2
Date: Sun, 31 Dec 2023 12:25:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 02:53:31.911046
Title: Rethinking the Paradigm of Content Constraints in GAN-based Unpaired Image-to-Image Translation
Title（参考訳）: GANに基づく画像間翻訳におけるコンテンツ制約のパラダイムの再考
Authors: Xiuding Cai, Yaoyao Zhu, Dong Miao, Linjie Fu, Yu Yao
Abstract要約: 本稿では,パッチレベルの特徴の潜在空間における表現的類似性を制約することにより,コンテンツ管理のシンプルかつ効率的な方法であるEnCoを提案する。類似性関数に対しては、I2Iタスクで広く使われている対照的な損失ではなく、単純なMSE損失を用いる。さらに, 識別者によるサンプリングにおける役割を再考し, ランダムサンプリングの代替として, DAG(Disdisnative attention-guided)パッチサンプリング戦略を提案する。
参考スコア（独自算出の注目度）: 9.900050049833986
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In an unpaired setting, lacking sufficient content constraints for image-to-image translation (I2I) tasks, GAN-based approaches are usually prone to model collapse. Current solutions can be divided into two categories, reconstruction-based and Siamese network-based. The former requires that the transformed or transforming image can be perfectly converted back to the original image, which is sometimes too strict and limits the generative performance. The latter involves feeding the original and generated images into a feature extractor and then matching their outputs. This is not efficient enough, and a universal feature extractor is not easily available. In this paper, we propose EnCo, a simple but efficient way to maintain the content by constraining the representational similarity in the latent space of patch-level features from the same stage of the \textbf{En}coder and de\textbf{Co}der of the generator. For the similarity function, we use a simple MSE loss instead of contrastive loss, which is currently widely used in I2I tasks. Benefits from the design, EnCo training is extremely efficient, while the features from the encoder produce a more positive effect on the decoding, leading to more satisfying generations. In addition, we rethink the role played by discriminators in sampling patches and propose a discriminative attention-guided (DAG) patch sampling strategy to replace random sampling. DAG is parameter-free and only requires negligible computational overhead, while significantly improving the performance of the model. Extensive experiments on multiple datasets demonstrate the effectiveness and advantages of EnCo, and we achieve multiple state-of-the-art compared to previous methods. Our code is available at https://github.com/XiudingCai/EnCo-pytorch.
Abstract（参考訳）: 画像から画像への変換(I2I)タスクに十分なコンテンツ制約が欠如している未ペア環境では、GANベースのアプローチは通常、崩壊する傾向にある。現在のソリューションは、再構築ベースとシームズネットワークベースという2つのカテゴリに分けられる。前者は、変換された画像または変換された画像が元の画像に完全に変換されるように要求する。後者は、オリジナルイメージと生成されたイメージを特徴抽出器に供給し、出力をマッチングする。これは十分に効率的ではなく、普遍的な特徴抽出器は簡単には利用できない。本稿では,パッチレベルの特徴の潜在空間における表現的類似性を,生成器の \textbf{en}coder と de\textbf{co}der の同じ段階から制約することにより,コンテンツの保守をシンプルかつ効率的に行う enco を提案する。類似度関数では、コントラスト損失の代わりに単純なmse損失を使い、現在i2iタスクで広く使われている。設計の利点は、EnCoのトレーニングは非常に効率的であり、エンコーダの機能はデコードによりポジティブな効果をもたらし、より満足できる世代を生み出します。さらに, 識別者によるサンプリングにおける役割を再考し, ランダムサンプリングを代替する差別的注意誘導型 (DAG) パッチサンプリング戦略を提案する。 DAGはパラメータフリーであり、計算オーバーヘッドは無視できるが、モデルの性能は大幅に改善される。複数のデータセットに対する大規模な実験は、EnCoの有効性と利点を示し、従来の方法と比較して複数の最先端を実現する。私たちのコードはhttps://github.com/xiudingcai/enco-pytorchで利用可能です。

関連論文リスト

GaussianToken: An Effective Image Tokenizer with 2D Gaussian Splatting [64.84383010238908]
本稿では,2次元ガウススプラッティングを解法とする効果的な画像トークン化手法を提案する。一般に、我々のフレームワークは、2次元ガウス分布の局所的な影響を離散空間に統合する。 CIFAR, Mini-Net, ImageNet-1K 上での競合的再構成性能は,我々のフレームワークの有効性を示す。
論文参考訳（メタデータ） (2025-01-26T17:56:11Z)
Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文参考訳（メタデータ） (2024-03-30T08:05:00Z)
{\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。 muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文参考訳（メタデータ） (2022-11-23T11:26:24Z)
DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。 3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2022-07-13T11:12:03Z)
Asymmetric Learned Image Compression with Multi-Scale Residual Block, Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文参考訳（メタデータ） (2022-06-21T09:34:29Z)
NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文参考訳（メタデータ） (2021-06-25T05:17:55Z)
One-to-many Approach for Improving Super-Resolution [0.0]
本稿では,Residual-in-Residual Dense Block (RRDB) 毎に重み付けされた画素単位のノイズを追加することで,生成元が様々な画像を生成することを提案する。我々は、一貫したコンテンツがある限り、再構成された画像の変動をペナルティにしないよう厳格なコンテンツ損失を修正した。我々は,x4知覚的SRにおけるESRGANの性能を改善し,x16知覚的極端SRにおける最先端LPIPSスコアを達成できた。
論文参考訳（メタデータ） (2021-06-19T06:41:29Z)
Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文参考訳（メタデータ） (2020-12-01T17:18:58Z)
Exploiting Non-Local Priors via Self-Convolution For Highly-Efficient Image Restoration [36.22821902478044]
画像の非局所的類似性を自己管理的に活用する新たな自己畳み込み演算子を提案する。提案したSelf-Convolutionは、一般的に使われているブロックマッチングステップを一般化し、より安価な計算で等価な結果を生成することができる。実験により、自己畳み込みは、人気のある非局所画像復元アルゴリズムの大部分を著しく高速化できることが示された。
論文参考訳（メタデータ） (2020-06-24T13:24:37Z)
The Power of Triply Complementary Priors for Image Compressive Sensing [89.14144796591685]
本稿では,一対の相補的な旅先を含むLRD画像モデルを提案する。次に、画像CSのためのRDモデルに基づく新しいハイブリッド・プラグイン・アンド・プレイ・フレームワークを提案する。そこで,提案したH-based image CS問題の解法として,単純で効果的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-05-16T08:17:44Z)
Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文参考訳（メタデータ） (2020-02-07T03:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。