論文の概要: MMoT: Mixture-of-Modality-Tokens Transformer for Composed Multimodal
Conditional Image Synthesis
- arxiv url: http://arxiv.org/abs/2305.05992v1
- Date: Wed, 10 May 2023 09:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 13:49:14.829922
- Title: MMoT: Mixture-of-Modality-Tokens Transformer for Composed Multimodal
Conditional Image Synthesis
- Title(参考訳): MMoT:合成多モード条件画像合成用混合モードトークン変換器
- Authors: Jianbin Zheng, Daqing Liu, Chaoyue Wang, Minghui Hu, Zuopeng Yang,
Changxing Ding, Dacheng Tao
- Abstract要約: マルチモーダル制御信号の合成を条件とした画像を生成する。
MMoT(Mixture-of-Modality-Tokens Transformer)を導入し,微細なマルチモーダル制御信号を適応的に融合する。
- 参考スコア(独自算出の注目度): 73.08923361242925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing multimodal conditional image synthesis (MCIS) methods generate
images conditioned on any combinations of various modalities that require all
of them must be exactly conformed, hindering the synthesis controllability and
leaving the potential of cross-modality under-exploited. To this end, we
propose to generate images conditioned on the compositions of multimodal
control signals, where modalities are imperfectly complementary, i.e., composed
multimodal conditional image synthesis (CMCIS). Specifically, we observe two
challenging issues of the proposed CMCIS task, i.e., the modality coordination
problem and the modality imbalance problem. To tackle these issues, we
introduce a Mixture-of-Modality-Tokens Transformer (MMoT) that adaptively fuses
fine-grained multimodal control signals, a multimodal balanced training loss to
stabilize the optimization of each modality, and a multimodal sampling guidance
to balance the strength of each modality control signal. Comprehensive
experimental results demonstrate that MMoT achieves superior performance on
both unimodal conditional image synthesis (UCIS) and MCIS tasks with
high-quality and faithful image synthesis on complex multimodal conditions. The
project website is available at https://jabir-zheng.github.io/MMoT.
- Abstract(参考訳): 既存のMCIS(Multimodal Conditional Image synthesis)法は、すべてのモダリティの組合せに条件付き画像を生成するが、これら全てを正確に整合させ、合成の制御性を阻害し、クロスモダリティの可能性を未発見のまま残す。
そこで本研究では,マルチモーダル・コンディショナル・イメージ・シンセシス (cmcis) を構成するモダリティが不完全に相補的であるマルチモーダル制御信号の構成に基づく画像を生成することを提案する。
具体的には,CMCISタスクの2つの課題,すなわちモダリティ調整問題とモダリティ不均衡問題について考察する。
これらの課題に対処するために、細粒度マルチモーダル制御信号を適応的に融合するMMOT(Mixture-of-Modality-Tokens Transformer)、各モーダルの最適化を安定化するためのマルチモーダルバランストレーニング損失、各モーダル制御信号の強度のバランスをとるマルチモーダルサンプリングガイダンスを導入する。
総合的な実験結果から、MMoTは複雑なマルチモーダル条件下での高品質で忠実な画像合成を行う一助条件画像合成(UCIS)とMCISタスクの両方において優れた性能を発揮することが示された。
プロジェクトのWebサイトはhttps://jabir-zheng.github.io/MMoT.comで公開されている。
関連論文リスト
- DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。
様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-04T11:54:57Z) - Unified Brain MR-Ultrasound Synthesis using Multi-Modal Hierarchical
Representations [34.821129614819604]
MHVAE(Deep Hierarchical Variational Auto-Encoder, VAE)は, 様々なモダリティから欠落した画像を合成する。
階層的な潜在構造を持つマルチモーダルVAEを拡張して,複数のモーダル画像を共通の潜在表現で融合する確率的定式化を導入する。
画像の欠落に対して,マルチモーダルVAE,条件付きGAN,現在の最先端統一手法(ResViT)より優れた性能を示した。
論文 参考訳(メタデータ) (2023-09-15T20:21:03Z) - A Novel Unified Conditional Score-based Generative Framework for
Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。
UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。
BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文 参考訳(メタデータ) (2022-07-07T16:57:21Z) - One Model to Synthesize Them All: Multi-contrast Multi-scale Transformer
for Missing Data Imputation [3.9207133968068684]
我々は、シーケンス・ツー・シーケンス学習問題として、欠落データ計算を定式化する。
マルチコントラストマルチスケールトランス (MMT) を提案する。
MMTは、異なる領域における各入力コントラストの重要性を理解することができるため、本質的に解釈可能である。
論文 参考訳(メタデータ) (2022-04-28T18:49:27Z) - UFC-BERT: Unifying Multi-Modal Controls for Conditional Image Synthesis [65.34414353024599]
条件付き画像合成は、いくつかのマルチモーダルガイダンスに従って画像を作成することを目的としている。
多数のマルチモーダル制御を統一する2段階アーキテクチャUFC-BERTを提案する。
論文 参考訳(メタデータ) (2021-05-29T04:42:07Z) - Multimodal Image Synthesis with Conditional Implicit Maximum Likelihood
Estimation [54.17177006826262]
我々はImplicit Maximum Likelihood Estimation (IMLE)に基づく新しい一般条件画像合成法を開発した。
我々は,シーンレイアウトからの単一画像超解像と画像合成という,2つのタスクにおけるマルチモーダル画像合成性能の改善を実証した。
論文 参考訳(メタデータ) (2020-04-07T03:06:55Z) - Hi-Net: Hybrid-fusion Network for Multi-modal MR Image Synthesis [143.55901940771568]
マルチモーダルMR画像合成のためのHybrid-fusion Network(Hi-Net)を提案する。
当社のHi-Netでは,各モーダリティの表現を学習するために,モーダリティ特化ネットワークを用いている。
マルチモーダル合成ネットワークは、潜在表現と各モーダルの階層的特徴を密結合するように設計されている。
論文 参考訳(メタデータ) (2020-02-11T08:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。