論文の概要: ITTR: Unpaired Image-to-Image Translation with Transformers
- arxiv url: http://arxiv.org/abs/2203.16015v1
- Date: Wed, 30 Mar 2022 02:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 15:08:21.443432
- Title: ITTR: Unpaired Image-to-Image Translation with Transformers
- Title(参考訳): ITTR:トランスフォーマーを用いた画像間翻訳
- Authors: Wanfeng Zheng, Qiang Li, Guoxin Zhang, Pengfei Wan, Zhongyuan Wang
- Abstract要約: 変換器を用いた非ペア画像変換(ITTR)のための効率的かつ効率的なアーキテクチャを提案する。
ITTRは,1)グローバルセマンティクスを利用するための異なる分野からのトークン混合のためのハイブリッド認識ブロック(HPB),2)計算複雑性を著しく低減するデュアルプルド自己アテンション(DPSA)の2つの主要な設計を持つ。
当社のITTRは、6つのベンチマークデータセット上で、未ペア画像から画像への変換のための最先端技術よりも優れています。
- 参考スコア(独自算出の注目度): 34.118637795470875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unpaired image-to-image translation is to translate an image from a source
domain to a target domain without paired training data. By utilizing CNN in
extracting local semantics, various techniques have been developed to improve
the translation performance. However, CNN-based generators lack the ability to
capture long-range dependency to well exploit global semantics. Recently,
Vision Transformers have been widely investigated for recognition tasks. Though
appealing, it is inappropriate to simply transfer a recognition-based vision
transformer to image-to-image translation due to the generation difficulty and
the computation limitation. In this paper, we propose an effective and
efficient architecture for unpaired Image-to-Image Translation with
Transformers (ITTR). It has two main designs: 1) hybrid perception block (HPB)
for token mixing from different receptive fields to utilize global semantics;
2) dual pruned self-attention (DPSA) to sharply reduce the computational
complexity. Our ITTR outperforms the state-of-the-arts for unpaired
image-to-image translation on six benchmark datasets.
- Abstract(参考訳): unpaired image-to-image translationは、トレーニングデータをペアにすることなく、ソースドメインからターゲットドメインへの画像変換である。
ローカルセマンティクスの抽出にCNNを活用することにより,翻訳性能を向上させるために様々な技術が開発されている。
しかし、cnnベースのジェネレータは、グローバルセマンティクスをうまく活用するために長距離依存性をキャプチャする能力が欠けている。
近年,視覚トランスフォーマーが認識課題として広く研究されている。
魅力的ではあるが、生成の困難さと計算の制限により、認識ベースの視覚変換器を画像間変換に単純に移行するのは不適切である。
本稿では,トランスフォーマー(ittr)を用いた画像対画像変換の効率的かつ効率的なアーキテクチャを提案する。
主なデザインは2つあります
1)グローバルセマンティクスを利用するための異なる受容領域からのトークン混合のためのハイブリッド認識ブロック(HPB)
2) 2重プルーンド自己注意(DPSA)は計算複雑性を著しく低減する。
当社のittrは,6つのベンチマークデータセットで,画像対画像変換の最先端技術よりも優れています。
関連論文リスト
- MxT: Mamba x Transformer for Image Inpainting [11.447968918063335]
Image Inpaintingは、セマンティック・コヒーレントなコンテンツで画像の欠落した領域や破損した領域を復元することを目的としている。
本稿では,Mambaと変換器を組み合わせたHybrid Module (HM) を相乗的に構成したMxTを提案する。
我々のHMは、ピクセルレベルとパッチレベルの二重レベルの相互作用学習を容易にし、高品質で文脈的精度で画像を再構成するモデルを大幅に強化する。
論文 参考訳(メタデータ) (2024-07-23T02:21:11Z) - SCONE-GAN: Semantic Contrastive learning-based Generative Adversarial
Network for an end-to-end image translation [18.93434486338439]
SCONE-GANはリアルで多様な風景画像を生成する学習に有効であることが示されている。
より現実的で多様な画像生成のために、スタイル参照画像を導入します。
画像から画像への変換と屋外画像のスタイリングのための提案アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-11-07T10:29:16Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Leveraging in-domain supervision for unsupervised image-to-image
translation tasks via multi-stream generators [4.726777092009554]
本稿では、翻訳品質の利点を活かすために、このドメイン内の貴重な事前知識を組み込むための2つの手法を紹介する。
本稿では,入力データをセマンティックマスクに従って分割し,画像の異なる領域の異なる動作にネットワークを明示的に導くことを提案する。
さらに,翻訳作業とともにセマンティックセグメンテーションネットワークを訓練し,この出力をロバスト性を向上させる損失項として活用することを提案する。
論文 参考訳(メタデータ) (2021-12-30T15:29:36Z) - Smoothing the Disentangled Latent Style Space for Unsupervised
Image-to-Image Translation [56.55178339375146]
イメージ・ツー・イメージ(I2I)マルチドメイン翻訳モデルは通常、セマンティックな結果の品質を用いて評価される。
本稿では,翻訳ネットワークがスムーズでゆがみのあるラテントスタイル空間を学習するのに役立つ,3つの特定の損失に基づく新たなトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2021-06-16T17:58:21Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - MixerGAN: An MLP-Based Architecture for Unpaired Image-to-Image
Translation [0.0]
そこで本研究では,MixerGANという画像間翻訳モデルを提案する。
そこで,MixerGANは,従来の畳み込み法と比較して,競合的な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-05-28T21:12:52Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。