論文の概要: Cascaded Cross MLP-Mixer GANs for Cross-View Image Translation
- arxiv url: http://arxiv.org/abs/2110.10183v1
- Date: Tue, 19 Oct 2021 18:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 16:09:05.299226
- Title: Cascaded Cross MLP-Mixer GANs for Cross-View Image Translation
- Title(参考訳): クロスビュー画像変換のためのケースドクロスMLPミクサGAN
- Authors: Bin Ren, Hao Tang, Nicu Sebe
- Abstract要約: 従来のクロスビュー画像変換法では、ターゲットビューで画像を生成することは困難である。
本稿では,カスケードクロスミキサー(CrossMLP)サブネットワークを用いた新しい2段階フレームワークを提案する。
最初の段階では、CrossMLPサブネットワークは、画像コードとセマンティックマップコードの間の潜時変換のキューを学習する。
第2段階では、ノイズの多いセマンティックラベル問題を緩和する改良されたピクセルレベルの損失を設計する。
- 参考スコア(独自算出の注目度): 70.00392682183515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is hard to generate an image at target view well for previous cross-view
image translation methods that directly adopt a simple encoder-decoder or U-Net
structure, especially for drastically different views and severe deformation
cases. To ease this problem, we propose a novel two-stage framework with a new
Cascaded Cross MLP-Mixer (CrossMLP) sub-network in the first stage and one
refined pixel-level loss in the second stage. In the first stage, the CrossMLP
sub-network learns the latent transformation cues between image code and
semantic map code via our novel CrossMLP blocks. Then the coarse results are
generated progressively under the guidance of those cues. Moreover, in the
second stage, we design a refined pixel-level loss that eases the noisy
semantic label problem with more reasonable regularization in a more compact
fashion for better optimization. Extensive experimental results on
Dayton~\cite{vo2016localizing} and CVUSA~\cite{workman2015wide} datasets show
that our method can generate significantly better results than state-of-the-art
methods. The source code and trained models are available at
https://github.com/Amazingren/CrossMLP.
- Abstract(参考訳): 単純なエンコーダデコーダやU-Net構造を直接採用する従来のクロスビュー画像変換手法では,特に大々的に異なるビューや厳しい変形の場合において,ターゲットビューで画像を生成することは困難である。
この問題を軽減するため,第1段階ではCrossMLP(CrossMLP)サブネットワーク,第2段では改良されたピクセルレベルの損失を持つ新しい2段階フレームワークを提案する。
最初の段階では、CrossMLPサブネットワークは、新しいCrossMLPブロックを介して、画像コードとセマンティックマップコードの間の潜時変換キューを学習する。
そして、これらの手がかりの指導の下、粗い結果が漸進的に生成される。
さらに,第2段階では,よりコンパクトな方法でより合理的な正規化を施し,よりノイズの多いセマンティックラベル問題を緩和する,改良されたピクセルレベルの損失を設計する。
Dayton~\cite{vo2016localizing} と CVUSA~\cite{workman2015wide} データセットの大規模な実験結果から,本手法は最先端の手法よりもはるかに優れた結果が得られることが示された。
ソースコードとトレーニングされたモデルはhttps://github.com/amazingren/crossmlpで入手できる。
関連論文リスト
- Exploring Multi-view Pixel Contrast for General and Robust Image Forgery Localization [4.8454936010479335]
本稿では,画像フォージェリーローカライゼーションのための多視点Pixel-wise Contrastive Algorithm (MPC)を提案する。
具体的には、まず、教師付きコントラスト損失を伴うバックボーンネットワークを事前訓練する。
次に、クロスエントロピー損失を用いてローカライゼーションヘッドを微調整し、ピクセルローカライザを改良する。
論文 参考訳(メタデータ) (2024-06-19T13:51:52Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。
私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。
提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-08-01T03:44:56Z) - MLP-GAN for Brain Vessel Image Segmentation [19.807219907693145]
脳血管画像のセグメンテーションは、様々な疾患の予防と治療のための有望なバイオマーカーとして使用できる。
1つの成功したアプローチは、セグメンテーションをイメージ・ツー・イメージ変換タスクとみなし、2つの分布間の変換を学習するための条件付き生成逆数ネットワーク(cGAN)を学ぶことである。
本稿では,3次元脳血管像を3つの異なる2次元画像(矢状,コロナ,軸方向)に合成し,それらを3つの異なる2次元cGANに供給する,新しいマルチビューアプローチを提案する。
我々のモデルは、クロスパッチ情報をキャプチャする能力を得る
論文 参考訳(メタデータ) (2022-07-17T19:24:38Z) - PI-Trans: Parallel-ConvMLP and Implicit-Transformation Based GAN for
Cross-View Image Translation [84.97160975101718]
本稿では,新しい並列-ConvMLPモジュールと,複数のセマンティックレベルでのインプリシット変換モジュールで構成される,新しい生成逆ネットワークPI-Transを提案する。
PI-Transは、2つの挑戦的データセットの最先端手法と比較して、大きなマージンで最も質的で定量的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-09T10:35:44Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - Global and Local Alignment Networks for Unpaired Image-to-Image
Translation [170.08142745705575]
未ペア画像から画像への変換の目的は、対象領域のスタイルを反映した出力画像を作成することである。
既存の手法では内容変化に注意が払われていないため、ソース画像からの意味情報は翻訳中の劣化に悩まされる。
我々はGLA-Net(Global and Local Alignment Networks)という新しいアプローチを導入する。
本手法は既存の手法よりもシャープでリアルな画像を効果的に生成する。
論文 参考訳(メタデータ) (2021-11-19T18:01:54Z) - MixerGAN: An MLP-Based Architecture for Unpaired Image-to-Image
Translation [0.0]
そこで本研究では,MixerGANという画像間翻訳モデルを提案する。
そこで,MixerGANは,従来の畳み込み法と比較して,競合的な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-05-28T21:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。