論文の概要: Independent Encoder for Deep Hierarchical Unsupervised Image-to-Image
Translation
- arxiv url: http://arxiv.org/abs/2107.02494v1
- Date: Tue, 6 Jul 2021 09:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 13:39:05.754522
- Title: Independent Encoder for Deep Hierarchical Unsupervised Image-to-Image
Translation
- Title(参考訳): 階層的教師なし画像変換のための独立エンコーダ
- Authors: Kai Ye, Yinru Ye, Minqiang Yang, Bin Hu
- Abstract要約: 画像から画像への変換(I2I)の主な課題は、翻訳された画像をリアルにし、可能な限りソースドメインからの情報を保持することである。
IEGANと呼ばれる新しいアーキテクチャを提案し、各ネットワークのエンコーダを取り除き、他のネットワークに依存しないエンコーダを導入する。
- 参考スコア(独自算出の注目度): 2.4826445086983475
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The main challenges of image-to-image (I2I) translation are to make the
translated image realistic and retain as much information from the source
domain as possible. To address this issue, we propose a novel architecture,
termed as IEGAN, which removes the encoder of each network and introduces an
encoder that is independent of other networks. Compared with previous models,
it embodies three advantages of our model: Firstly, it is more directly and
comprehensively to grasp image information since the encoder no longer receives
loss from generator and discriminator. Secondly, the independent encoder allows
each network to focus more on its own goal which makes the translated image
more realistic. Thirdly, the reduction in the number of encoders performs more
unified image representation. However, when the independent encoder applies two
down-sampling blocks, it's hard to extract semantic information. To tackle this
problem, we propose deep and shallow information space containing
characteristic and semantic information, which can guide the model to translate
high-quality images under the task with significant shape or texture change. We
compare IEGAN with other previous models, and conduct researches on semantic
information consistency and component ablation at the same time. These
experiments show the superiority and effectiveness of our architecture. Our
code is published on: https://github.com/Elvinky/IEGAN.
- Abstract(参考訳): image-to-image (i2i)翻訳の主な課題は、翻訳画像を現実的なものにし、可能な限りソースドメインからの情報を保持することである。
この問題に対処するために,各ネットワークのエンコーダを除去し,他のネットワークとは独立したエンコーダを導入する,ieganと呼ばれる新しいアーキテクチャを提案する。
第一に、エンコーダはジェネレータや識別器から損失を受けなくなるため、画像情報を直接的かつ包括的に把握することがより困難である。
第二に、独立したエンコーダは、各ネットワークが自身の目標に集中できるようにし、翻訳された画像をよりリアルにする。
第3に、エンコーダ数の減少は、より統一された画像表現を実行する。
しかし、独立エンコーダが2つのダウンサンプリングブロックを適用する場合、意味情報を抽出することは困難である。
この問題に対処するために,特徴情報と意味情報を含む深層・浅層情報空間を提案する。
我々はieganを他のモデルと比較し,セマンティクス情報一貫性とコンポーネントアブレーションの研究を同時に行う。
これらの実験はアーキテクチャの優位性と有効性を示している。
私たちのコードは、https://github.com/Elvinky/IEGAN.comで公開されています。
関連論文リスト
- Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - Compressed Image Captioning using CNN-based Encoder-Decoder Framework [0.0]
畳み込みニューラルネットワーク(CNN)とエンコーダ・デコーダモデルの強みを組み合わせた自動画像キャプションアーキテクチャを開発した。
また、事前訓練されたCNNモデルの領域を掘り下げた性能比較も行います。
我々はまた,周波数正規化手法を統合して "AlexNet" と "EfficientNetB0" モデルを圧縮する手法についても検討した。
論文 参考訳(メタデータ) (2024-04-28T03:47:48Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text
Retrieval [117.15862403330121]
共同学習のためのネットワークにおいて,デュアルエンコーダとクロスエンコーダを組み合わせたLoopITRを提案する。
具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
論文 参考訳(メタデータ) (2022-03-10T16:41:12Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - DeepI2I: Enabling Deep Hierarchical Image-to-Image Translation by
Transferring from GANs [43.33066765114446]
画像から画像への変換は、クラス間の変換が大きな形状変化を必要とする場合、性能が劣る。
本稿では,DeepI2Iと呼ばれる新しい階層型画像から画像への変換手法を提案する。
転送学習はI2Iシステム、特に小さなデータセットの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2020-11-11T16:03:03Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Generate High Resolution Images With Generative Variational Autoencoder [0.0]
本稿では,高解像度画像を生成する新しいニューラルネットワークを提案する。
エンコーダをそのまま使用しながら,VAEのデコーダを識別器に置き換える。
我々は、MNIST、LSUN、CelebAの3つの異なるデータセットでネットワークを評価した。
論文 参考訳(メタデータ) (2020-08-12T20:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。