論文の概要: Towards Flexible, Scalable, and Adaptive Multi-Modal Conditioned Face Synthesis
- arxiv url: http://arxiv.org/abs/2312.16274v2
- Date: Thu, 21 Mar 2024 16:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 19:27:29.664104
- Title: Towards Flexible, Scalable, and Adaptive Multi-Modal Conditioned Face Synthesis
- Title(参考訳): フレキシブル・スケーラブル・適応型多モード顔合成に向けて
- Authors: Jingjing Ren, Cheng Xu, Haoyu Chen, Xinran Qin, Lei Zhu,
- Abstract要約: 本稿では,一様サロゲートを用いた新しい一様トレーニング手法と,エントロピーを意識したモーダル適応変調を導入する。
本フレームワークは,様々な条件下でのマルチモーダル顔合成を改良し,画像品質と忠実度における現在の手法を超越した。
- 参考スコア(独自算出の注目度): 20.515284586876945
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent progress in multi-modal conditioned face synthesis has enabled the creation of visually striking and accurately aligned facial images. Yet, current methods still face issues with scalability, limited flexibility, and a one-size-fits-all approach to control strength, not accounting for the differing levels of conditional entropy, a measure of unpredictability in data given some condition, across modalities. To address these challenges, we introduce a novel uni-modal training approach with modal surrogates, coupled with an entropy-aware modal-adaptive modulation, to support flexible, scalable, and scalable multi-modal conditioned face synthesis network. Our uni-modal training with modal surrogate that only leverage uni-modal data, use modal surrogate to decorate condition with modal-specific characteristic and serve as linker for inter-modal collaboration , fully learns each modality control in face synthesis process as well as inter-modal collaboration. The entropy-aware modal-adaptive modulation finely adjust diffusion noise according to modal-specific characteristics and given conditions, enabling well-informed step along denoising trajectory and ultimately leading to synthesis results of high fidelity and quality. Our framework improves multi-modal face synthesis under various conditions, surpassing current methods in image quality and fidelity, as demonstrated by our thorough experimental results.
- Abstract(参考訳): マルチモーダル顔合成の最近の進歩により、視覚的に印象的かつ正確に整列された顔画像の作成が可能となった。
しかし、現在の手法は、拡張性、柔軟性の制限、そして、条件エントロピーの異なるレベルを考慮せず、特定の条件が与えられたデータにおける予測不可能さを考慮せずに、制御強度を一律に調整するアプローチという問題に直面している。
これらの課題に対処するため,一様サロゲートを用いた新しい一様トレーニング手法とエントロピー対応型モーダル適応変調を導入し,柔軟でスケーラブルでスケーラブルなマルチモーダル条件付き顔合成ネットワークを実現する。
一様データのみを利用した一様サロゲートを用いた一様トレーニングでは,モーダル・サロゲートを用いて条件をデコレートし,モーダル間協調のリンカーとして機能し,顔合成プロセスにおける各モダリティ制御とモーダル間協調の完全学習を行う。
エントロピー対応モード適応変調は、モード固有特性および与えられた条件に応じて拡散ノイズを微調整し、デノイング軌道に沿った良好なインフォームドステップを可能にし、最終的に高忠実度と品質の合成結果をもたらす。
本フレームワークは様々な条件下でのマルチモーダル顔合成を改良し,画像の画質と忠実さの現在の手法を克服する。
関連論文リスト
- On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Enhancing Cross-Modal Fine-Tuning with Gradually Intermediate Modality Generation [12.877256055338517]
本稿では,クロスモーダルファインチューニングを強化するために,エンドツーエンドのPaReを提案する。
PaReは、大規模な事前訓練されたモデルを、様々なターゲットモダリティに転送することを目的としている。
ハンドデザイン、汎用、タスク特化、最先端のクロスモーダル微調整アプローチと比較すると、PaReは優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-06-13T11:12:46Z) - Robust Latent Representation Tuning for Image-text Classification [9.789498730131607]
大規模モデルに対する頑健な潜在表現チューニング手法を提案する。
提案手法では,モダリティ間の相関を最大化するために,モダリティ潜在翻訳モジュールを導入し,ロバストな表現を実現する。
このフレームワークでは、トレーニング中に共通セマンティクスが洗練され、1つのモダリティがなくてもロバストなパフォーマンスが達成される。
論文 参考訳(メタデータ) (2024-06-10T06:29:00Z) - MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models [22.044020889631188]
マルチモーダル統合によるジェスチャーの多様性とリズムを向上させるMambaTalkを紹介する。
我々の手法は最先端のモデルの性能と一致するか超えている。
論文 参考訳(メタデータ) (2024-03-14T15:10:54Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - MMoT: Mixture-of-Modality-Tokens Transformer for Composed Multimodal
Conditional Image Synthesis [73.08923361242925]
マルチモーダル制御信号の合成を条件とした画像を生成する。
MMoT(Mixture-of-Modality-Tokens Transformer)を導入し,微細なマルチモーダル制御信号を適応的に融合する。
論文 参考訳(メタデータ) (2023-05-10T09:00:04Z) - Collaborative Diffusion for Multi-Modal Face Generation and Editing [34.16906110777047]
本稿では,事前学習した単モーダル拡散モデルと協調して複数モーダル顔の生成と編集を行うコラボレーティブ拡散について述べる。
具体的には、事前学習された各ユニモーダルモデルに対する空間的時間的影響関数を予測することにより、マルチモーダルな認知ステップを適応的に幻覚するメタネットワークである動的ディフューザを提案する。
論文 参考訳(メタデータ) (2023-04-20T17:59:02Z) - A Novel Unified Conditional Score-based Generative Framework for
Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。
UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。
BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文 参考訳(メタデータ) (2022-07-07T16:57:21Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - Multimodal Image Synthesis with Conditional Implicit Maximum Likelihood
Estimation [54.17177006826262]
我々はImplicit Maximum Likelihood Estimation (IMLE)に基づく新しい一般条件画像合成法を開発した。
我々は,シーンレイアウトからの単一画像超解像と画像合成という,2つのタスクにおけるマルチモーダル画像合成性能の改善を実証した。
論文 参考訳(メタデータ) (2020-04-07T03:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。