論文の概要: MCMI: Multi-Cycle Image Translation with Mutual Information Constraints
- arxiv url: http://arxiv.org/abs/2007.02919v1
- Date: Mon, 6 Jul 2020 17:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 02:55:11.765903
- Title: MCMI: Multi-Cycle Image Translation with Mutual Information Constraints
- Title(参考訳): MCMI:相互情報制約によるマルチサイクル画像変換
- Authors: Xiang Xu, Megha Nawhal, Greg Mori, Manolis Savva
- Abstract要約: 教師なし画像間翻訳のための相互情報に基づくフレームワークを提案する。
MCMIアプローチでは, 単一サイクル画像翻訳モデルを, 多サイクル翻訳設定で繰り返し使用可能なモジュールとして扱う。
MCMIでトレーニングしたモデルでは,高品質な画像が生成され,セマンティックなマッピングがより学習されることを示す。
- 参考スコア(独自算出の注目度): 40.556049046897115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a mutual information-based framework for unsupervised
image-to-image translation. Our MCMI approach treats single-cycle image
translation models as modules that can be used recurrently in a multi-cycle
translation setting where the translation process is bounded by mutual
information constraints between the input and output images. The proposed
mutual information constraints can improve cross-domain mappings by optimizing
out translation functions that fail to satisfy the Markov property during image
translations. We show that models trained with MCMI produce higher quality
images and learn more semantically-relevant mappings compared to
state-of-the-art image translation methods. The MCMI framework can be applied
to existing unpaired image-to-image translation models with minimum
modifications. Qualitative experiments and a perceptual study demonstrate the
image quality improvements and generality of our approach using several
backbone models and a variety of image datasets.
- Abstract(参考訳): 教師なし画像間翻訳のための相互情報に基づくフレームワークを提案する。
MCMIでは,入力画像と出力画像間の相互情報制約によって翻訳プロセスが拘束されるマルチサイクル翻訳設定において,単一サイクル画像変換モデルを繰り返し使用可能なモジュールとして扱う。
提案する相互情報制約は、画像翻訳中にマルコフ特性を満たさない翻訳関数を最適化することで、クロスドメインマッピングを改善することができる。
MCMIで訓練したモデルは高品質な画像を生成し、最先端の画像翻訳法と比較して意味論的に関連性のあるマッピングを学習する。
MCMIフレームワークは、最小限の修正を施した既存の画像から画像への翻訳モデルに適用することができる。
定性的実験と知覚的研究は、いくつかのバックボーンモデルと様々な画像データセットを用いて、我々のアプローチの画質改善と一般性を示す。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Variational Bayesian Framework for Advanced Image Generation with
Domain-Related Variables [29.827191184889898]
先進条件生成問題に対する統一ベイズ的枠組みを提案する。
本稿では,複数の画像翻訳および編集作業が可能な変分ベイズ画像翻訳ネットワーク(VBITN)を提案する。
論文 参考訳(メタデータ) (2023-05-23T09:47:23Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z) - Vector Quantized Image-to-Image Translation [31.65282783830092]
本稿では,ベクトル量子化手法を画像から画像への変換フレームワークに導入することを提案する。
我々のフレームワークは、最新の画像から画像への変換や画像拡張手法に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2022-07-27T04:22:29Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z) - Unbalanced Feature Transport for Exemplar-based Image Translation [51.54421432912801]
本稿では,画像翻訳における条件入力とスタイルの類似点間の特徴的アライメントに最適なトランスポートを組み込んだ一般画像翻訳フレームワークを提案する。
本手法は,最先端技術と比較して質的,定量的に優れた画像翻訳を実現する。
論文 参考訳(メタデータ) (2021-06-19T12:07:48Z) - Smoothing the Disentangled Latent Style Space for Unsupervised
Image-to-Image Translation [56.55178339375146]
イメージ・ツー・イメージ(I2I)マルチドメイン翻訳モデルは通常、セマンティックな結果の品質を用いて評価される。
本稿では,翻訳ネットワークがスムーズでゆがみのあるラテントスタイル空間を学習するのに役立つ,3つの特定の損失に基づく新たなトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2021-06-16T17:58:21Z) - Gumbel-Attention for Multi-modal Machine Translation [18.4381138617661]
マルチモーダル機械翻訳(MMT)は視覚情報を導入して翻訳品質を向上させる。
既存のMTモデルは、画像がテキストに関係のない情報をもたらし、モデルに大きなノイズを与え、翻訳品質に影響を与えるという問題を無視する。
画像特徴のテキスト関連部分を選択するマルチモーダル機械翻訳のための新しいGumbel-Attentionを提案します。
論文 参考訳(メタデータ) (2021-03-16T05:44:01Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。