Fugu-MT 論文翻訳(概要): Mask CycleGAN: Unpaired Multi-modal Domain Translation with Interpretable Latent Variable

論文の概要: Mask CycleGAN: Unpaired Multi-modal Domain Translation with Interpretable Latent Variable

arxiv url: http://arxiv.org/abs/2205.06969v1
Date: Sat, 14 May 2022 05:05:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-19 06:26:01.373594
Title: Mask CycleGAN: Unpaired Multi-modal Domain Translation with Interpretable Latent Variable
Title（参考訳）: Mask CycleGAN: 解釈可能な潜在変数を持つ非ペア型マルチモーダルドメイン翻訳
Authors: Minfa Wang
Abstract要約: 本稿では,CycleGANをベースとした画像領域翻訳のための新しいアーキテクチャであるMask CycleGANを提案する。このアーキテクチャは、生成した画像に可変性を持たせることができ、異なるマスクに対して合理的に堅牢であることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose Mask CycleGAN, a novel architecture for unpaired image domain translation built based on CycleGAN, with an aim to address two issues: 1) unimodality in image translation and 2) lack of interpretability of latent variables. Our innovation in the technical approach is comprised of three key components: masking scheme, generator and objective. Experimental results demonstrate that this architecture is capable of bringing variations to generated images in a controllable manner and is reasonably robust to different masks.
Abstract（参考訳）: 提案するMask CycleGANは,CycleGANをベースとした未ペア画像領域翻訳のための新しいアーキテクチャである。 1)画像翻訳における一様性 2)潜在変数の解釈可能性の欠如。技術的アプローチにおける私たちの革新は、マスキングスキーム、ジェネレータ、目的の3つの重要なコンポーネントで構成されています。実験により、このアーキテクチャは、生成した画像に可変性をもたらすことができ、異なるマスクに対して合理的に堅牢であることが示された。

関連論文リスト

Polyline Path Masked Attention for Vision Transformer [48.25001539205017]
ビジョントランスフォーマー (ViT) はコンピュータビジョンにおいて大きな成功を収めた。 Mamba2は自然言語処理タスクにおいて大きな可能性を実証している。本稿では,VTの自己注意機構とMamba2の強化された構造化マスクを統合するポリリンパス仮面注意(PPMA)を提案する。
論文参考訳（メタデータ） (2025-06-19T00:52:30Z)
Pluralistic Salient Object Detection [108.74650817891984]
本稿では,与えられた入力画像に対して,複数の有意な有意な有意な有意な有意な有意な分割結果を生成することを目的とした新しい課題であるPSOD(multiistic Salient Object Detection)を紹介する。新たに設計された評価指標とともに,2つのSODデータセット "DUTS-MM" と "DUS-MQ" を提案する。
論文参考訳（メタデータ） (2024-09-04T01:38:37Z)
Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。 BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文参考訳（メタデータ） (2023-11-29T07:33:38Z)
CycleNet: Rethinking Cycle Consistency in Text-Guided Diffusion for Image Manipulation [57.836686457542385]
拡散モデル(DM)は画像合成タスクのブレークスルーを実現するが、一貫したイメージ・ツー・イメージ(I2I)翻訳のための直感的なインタフェースは欠如している。本稿では,画像操作を正規化するためのDMにサイクル一貫性を組み込んだ,新しくてシンプルな手法であるCyclenetを紹介する。
論文参考訳（メタデータ） (2023-10-19T21:32:21Z)
MMNet: Multi-Mask Network for Referring Image Segmentation [6.462622145673872]
画像セグメンテーション(MMNet)のためのエンドツーエンドマルチマスクネットワークを提案する。まず、画像と言語を組み合わせて、言語表現の異なる側面を表す複数のクエリを生成する。最終的な結果は、すべてのマスクの重み付け和によって得られ、言語表現のランダム性を大幅に減少させる。
論文参考訳（メタデータ） (2023-05-24T10:02:27Z)
Variational Bayesian Framework for Advanced Image Generation with Domain-Related Variables [29.827191184889898]
先進条件生成問題に対する統一ベイズ的枠組みを提案する。本稿では,複数の画像翻訳および編集作業が可能な変分ベイズ画像翻訳ネットワーク(VBITN)を提案する。
論文参考訳（メタデータ） (2023-05-23T09:47:23Z)
MaskSketch: Unpaired Structure-guided Masked Image Generation [56.88038469743742]
MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
論文参考訳（メタデータ） (2023-02-10T20:27:02Z)
Multi-domain Unsupervised Image-to-Image Translation with Appearance Adaptive Convolution [62.4972011636884]
本稿では,MDUIT(Multi-domain unsupervised image-to-image translation)フレームワークを提案する。我々は、分解されたコンテンツ特徴と外観適応的畳み込みを利用して、画像をターゲットの外観に変換する。提案手法は,最先端の手法と比較して,複数の領域で視覚的に多様かつ妥当な結果が得られることを示す。
論文参考訳（メタデータ） (2022-02-06T14:12:34Z)
Mask Attention Networks: Rethinking and Strengthen Transformer [70.95528238937861]
Transformerは、セルフアテンションネットワーク(SAN)とフィードフォワードネットワーク(FFN)の2つのサブレイヤからなる注目ベースのニューラルネットワークです。
論文参考訳（メタデータ） (2021-03-25T04:07:44Z)
Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文参考訳（メタデータ） (2020-02-12T21:09:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。