論文の概要: MixerGAN: An MLP-Based Architecture for Unpaired Image-to-Image
Translation
- arxiv url: http://arxiv.org/abs/2105.14110v1
- Date: Fri, 28 May 2021 21:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:18:47.669993
- Title: MixerGAN: An MLP-Based Architecture for Unpaired Image-to-Image
Translation
- Title(参考訳): mixergan: 画像対画像変換のためのmlpベースのアーキテクチャ
- Authors: George Cazenavette, Manuel Ladron De Guevara
- Abstract要約: そこで本研究では,MixerGANという画像間翻訳モデルを提案する。
そこで,MixerGANは,従来の畳み込み法と比較して,競合的な結果が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While attention-based transformer networks achieve unparalleled success in
nearly all language tasks, the large number of tokens coupled with the
quadratic activation memory usage makes them prohibitive for visual tasks. As
such, while language-to-language translation has been revolutionized by the
transformer model, convolutional networks remain the de facto solution for
image-to-image translation. The recently proposed MLP-Mixer architecture
alleviates some of the speed and memory issues associated with attention-based
networks while still retaining the long-range connections that make transformer
models desirable. Leveraging this efficient alternative to self-attention, we
propose a new unpaired image-to-image translation model called MixerGAN: a
simpler MLP-based architecture that considers long-distance relationships
between pixels without the need for expensive attention mechanisms.
Quantitative and qualitative analysis shows that MixerGAN achieves competitive
results when compared to prior convolutional-based methods.
- Abstract(参考訳): 注意に基づくトランスフォーマーネットワークは、ほぼ全ての言語タスクにおいて例外なく成功を収める一方で、2次アクティベーションメモリ使用量と結びついた大量のトークンは、視覚タスクでは禁止される。
このように、言語間翻訳はトランスフォーマーモデルによって革新されているが、畳み込みネットワークは画像間翻訳のデファクトソリューションのままである。
最近提案されたmlp-mixerアーキテクチャは、トランスフォーマーモデルが望ましい長距離接続を維持しながら、注意に基づくネットワークに関連する速度とメモリの問題を軽減する。
そこで本研究では,MixerGANという,高コストな注意機構を必要とせず,画素間の長距離関係を考慮し,よりシンプルなMLPベースのアーキテクチャを提案する。
定量的および定性的な分析により、MixerGANは従来の畳み込みに基づく手法と比較して競争的な結果が得られることが示された。
関連論文リスト
- Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring [25.36888929483233]
そこで本研究では,シングルインプットとマルチアウトプット(SIMO)に基づくマルチスケールネットワークを提案する。
実世界の軌道特性を学習可能なウェーブレット変換モジュールと組み合わせて、ぼやけた画像から鋭い画像へのステップバイステップ遷移の方向連続性と周波数特性に着目した。
論文 参考訳(メタデータ) (2023-12-29T02:59:40Z) - Smooth image-to-image translations with latent space interpolations [64.8170758294427]
マルチドメインイメージ・トゥ・イメージ(I2I)変換は、ターゲットドメインのスタイルに応じてソースイメージを変換することができる。
我々の正規化技術は、最先端のI2I翻訳を大きなマージンで改善できることを示す。
論文 参考訳(メタデータ) (2022-10-03T11:57:30Z) - PI-Trans: Parallel-ConvMLP and Implicit-Transformation Based GAN for
Cross-View Image Translation [84.97160975101718]
本稿では,新しい並列-ConvMLPモジュールと,複数のセマンティックレベルでのインプリシット変換モジュールで構成される,新しい生成逆ネットワークPI-Transを提案する。
PI-Transは、2つの挑戦的データセットの最先端手法と比較して、大きなマージンで最も質的で定量的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-09T10:35:44Z) - ITTR: Unpaired Image-to-Image Translation with Transformers [34.118637795470875]
変換器を用いた非ペア画像変換(ITTR)のための効率的かつ効率的なアーキテクチャを提案する。
ITTRは,1)グローバルセマンティクスを利用するための異なる分野からのトークン混合のためのハイブリッド認識ブロック(HPB),2)計算複雑性を著しく低減するデュアルプルド自己アテンション(DPSA)の2つの主要な設計を持つ。
当社のITTRは、6つのベンチマークデータセット上で、未ペア画像から画像への変換のための最先端技術よりも優れています。
論文 参考訳(メタデータ) (2022-03-30T02:46:12Z) - Image-to-Image MLP-mixer for Image Reconstruction [23.036592718421105]
マルチ層パーセプトロン(MLP)-ミキサをベースとした単純なネットワークは,畳み込みを伴わずに,最先端の画像再構成性能を実現する。
Image-to-image-mixerは、線形変換されたイメージパッチでのみ動作する画像に基づいている。
また、画像再構成のための視覚変換器や、BM3Dのような古典的な未訓練の手法よりも優れている。
論文 参考訳(メタデータ) (2022-02-04T08:36:34Z) - MAXIM: Multi-Axis MLP for Image Processing [19.192826213493838]
本稿では,画像処理タスクの汎用的なバックボーンとして,MAXIMと呼ばれるマルチ軸アーキテクチャを提案する。
MAXIMはUNet型の階層構造を使用し、空間的なゲートによって可能となる長距離相互作用をサポートする。
その結果, MAXIMモデルにより, 画像処理タスクの10以上のベンチマークにおいて, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-01-09T09:59:32Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。