論文の概要: MagicID: Flexible ID Fidelity Generation System
- arxiv url: http://arxiv.org/abs/2408.09248v1
- Date: Sat, 17 Aug 2024 16:34:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 21:39:37.405395
- Title: MagicID: Flexible ID Fidelity Generation System
- Title(参考訳): MagicID:フレキシブルIDフィデリティ生成システム
- Authors: Zhaoli Deng, Wen Liu, Fanyi Wang, Junkang Zhang, Fan Chen, Wendong Zhang, Zhenpeng Mi,
- Abstract要約: 現在の方法では、解像度の低い画像のごく一部を顔が占める場合、高忠実度ポートレートの結果を生成するのが困難である。
我々は、IDZoomという自己構築された100万レベルのマルチモーダルデータセットに基づいて、MagicIDと呼ばれる体系的なソリューションを提案する。
MagicID は Multi-Mode Fusion Training Strategy (MMF) と DDIM Inversion based ID Restoration Inference framework (DIIR) から構成される。
- 参考スコア(独自算出の注目度): 9.39612476781002
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Portrait Fidelity Generation is a prominent research area in generative models, with a primary focus on enhancing both controllability and fidelity. Current methods face challenges in generating high-fidelity portrait results when faces occupy a small portion of the image with a low resolution, especially in multi-person group photo settings. To tackle these issues, we propose a systematic solution called MagicID, based on a self-constructed million-level multi-modal dataset named IDZoom. MagicID consists of Multi-Mode Fusion training strategy (MMF) and DDIM Inversion based ID Restoration inference framework (DIIR). During training, MMF iteratively uses the skeleton and landmark modalities from IDZoom as conditional guidance. By introducing the Clone Face Tuning in training stage and Mask Guided Multi-ID Cross Attention (MGMICA) in inference stage, explicit constraints on face positional features are achieved for multi-ID group photo generation. The DIIR aims to address the issue of artifacts. The DDIM Inversion is used in conjunction with face landmarks, global and local face features to achieve face restoration while keeping the background unchanged. Additionally, DIIR is plug-and-play and can be applied to any diffusion-based portrait generation method. To validate the effectiveness of MagicID, we conducted extensive comparative and ablation experiments. The experimental results demonstrate that MagicID has significant advantages in both subjective and objective metrics, and achieves controllable generation in multi-person scenarios.
- Abstract(参考訳): ポートレート・フィデリティ・ジェネレーションは、生成モデルにおいて顕著な研究領域であり、制御可能性とフィデリティの両方を強化することに重点を置いている。
近年の手法では,画像のごく一部を低解像度で占める場合,特にマルチパーソナライズされたグループ写真の設定において,高忠実度像の生成に課題がある。
これらの課題に対処するため、IDZoomという自己構築された100万単位のマルチモーダルデータセットに基づくMagicIDと呼ばれる体系的ソリューションを提案する。
MagicID は Multi-Mode Fusion Training Strategy (MMF) と DDIM Inversion based ID Restoration Inference framework (DIIR) から構成されている。
トレーニング中、MMFは条件付きガイダンスとしてIDZoomのスケルトンとランドマークのモダリティを反復的に使用した。
トレーニング段階におけるクローンフェイスチューニングと、推論段階におけるマスクガイドマルチIDクロスアテンション(MGMICA)の導入により、マルチIDグループ写真生成における顔位置特徴の明示的な制約が達成される。
DIIRは、アーティファクトの問題に対処することを目指している。
DDIMインバージョンは、顔のランドマーク、グローバルおよびローカルな顔の特徴と組み合わせて、背景を変更せずに顔の復元を実現するために使用される。
さらに、DIIRはプラグアンドプレイであり、拡散ベースのポートレート生成方法にも適用することができる。
MagicIDの有効性を検証するため,広範囲な比較・アブレーション実験を行った。
実験の結果,MagicIDは主観的,客観的両方の指標において大きな優位性を示し,多人数シナリオにおいて制御可能な生成を実現する。
関連論文リスト
- Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation [0.0]
InstantFamilyは、ゼロショットマルチID画像生成を実現するために、新しいクロスアテンション機構とマルチモーダル埋め込みスタックを利用するアプローチである。
本手法は,テキスト条件と統合された事前学習された顔認識モデルから,グローバルな特徴とローカルな特徴を活用することにより,IDを効果的に保存する。
論文 参考訳(メタデータ) (2024-04-30T10:16:21Z) - ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving [66.09976326184066]
ConsistentIDは、微細なマルチモーダル顔のプロンプト下での多彩な画像生成のための革新的な手法である。
我々は、50万以上の顔画像を持つ、きめ細かいポートレートデータセットFGIDを提示し、既存の顔データセットよりも多様性と包括性を提供する。
論文 参考訳(メタデータ) (2024-04-25T17:23:43Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - Learning Progressive Modality-shared Transformers for Effective
Visible-Infrared Person Re-identification [27.75907274034702]
我々は,能率VI-ReIDのためのPMT(Progressive Modality-Shared Transformer)という新しいディープラーニングフレームワークを提案する。
モダリティギャップの負の効果を低減するために、まず、グレースケールの画像を補助的なモダリティとして捉え、進歩的な学習戦略を提案する。
クラス内差が大きく,クラス間差が少ない問題に対処するために,識別中心損失を提案する。
論文 参考訳(メタデータ) (2022-12-01T02:20:16Z) - Efficient and Accurate Multi-scale Topological Network for Single Image
Dehazing [31.543771270803056]
本稿では,入力画像自体の特徴抽出と利用に注意を払います。
本稿では,マルチスケールトポロジカルネットワーク (mstn) を提案する。
一方、我々は、異なるスケールで機能の選択と融合を達成するために、マルチスケール機能融合モジュール(MFFM)と適応機能選択モジュール(AFSM)を設計します。
論文 参考訳(メタデータ) (2021-02-24T08:53:14Z) - DCDLearn: Multi-order Deep Cross-distance Learning for Vehicle
Re-Identification [22.547915009758256]
本稿では,車両再識別のための多階深層距離学習モデルを定式化する。
1ビューのCycleGANモデルは、網羅的で列挙的なクロスカメラマッチング問題を緩和するために開発された。
3台の車載Re-IDデータセットによる実験により,提案手法が最先端技術よりも大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2020-03-25T10:46:54Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。