論文の概要: FPGA: Flexible Portrait Generation Approach
- arxiv url: http://arxiv.org/abs/2408.09248v3
- Date: Sun, 23 Feb 2025 12:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:47:45.642623
- Title: FPGA: Flexible Portrait Generation Approach
- Title(参考訳): FPGA:フレキシブルなポートレート生成アプローチ
- Authors: Zhaoli Deng, Fanyi Wang, Junkang Zhang, Fan Chen, Meng Zhang, Wendong Zhang, Wen Liu, Zhenpeng Mi,
- Abstract要約: 我々は,100万レベルのマルチモーダルデータセットIDZoomをトレーニング用に構築するFPGAと呼ばれる包括的システムを提案する。
FPGA は Multi-Mode Fusion Training Strategy (MMF) と DDIM Inversion based ID Restoration Inference framework (DIIR) から構成される。
DIIRはプラグアンドプレイであり、どんな拡散ベースのポートレート生成にも適用でき、性能が向上する。
- 参考スコア(独自算出の注目度): 11.002947043723617
- License:
- Abstract: Portrait Fidelity Generation is a prominent research area in generative models.Current methods face challenges in generating full-body images with low-resolution faces, especially in multi-ID photo phenomenon.To tackle these issues, we propose a comprehensive system called FPGA and construct a million-level multi-modal dataset IDZoom for training.FPGA consists of Multi-Mode Fusion training strategy (MMF) and DDIM Inversion based ID Restoration inference framework (DIIR). The MMF aims to activate the specified ID in the specified facial region. The DIIR aims to address the issue of face artifacts while keeping the background.Furthermore, DIIR is plug-and-play and can be applied to any diffusion-based portrait generation method to enhance their performance. DIIR is also capable of performing face-swapping tasks and is applicable to stylized faces as well.To validate the effectiveness of FPGA, we conducted extensive comparative and ablation experiments. The experimental results demonstrate that FPGA has significant advantages in both subjective and objective metrics, and achieves controllable generation in multi-ID scenarios. In addition, we accelerate the inference speed to within 2.5 seconds on a single L20 graphics card mainly based on our well designed reparameterization method, RepControlNet.
- Abstract(参考訳): ポートレートフィデリティ生成は、生成モデルにおいて顕著な研究領域であり、特にマルチID写真現象において、低解像度の顔を持つフルボディ画像を生成する際の課題に直面している。これらの問題に対処するために、FPGAと呼ばれる包括的システムを提案し、トレーニング用に100万レベルのマルチモーダルデータセットIDZoomを構築する。FPGAは、Multi-Mode Fusion Training Strategy(MMF)とDDIM Inversion based ID Restoration Inference framework(DIIR)から構成される。
MMFは、指定された顔領域で指定されたIDを活性化することを目的としている。
さらに、DIIRはプラグアンドプレイであり、拡散型ポートレート生成法にも適用でき、その性能を向上させることができる。
また, FPGAの有効性を検証するために, 広範に比較・アブレーション実験を行った。
実験の結果,FPGAは主観的,客観的両指標において大きな優位性を示し,マルチIDシナリオにおいて制御可能な生成を実現する。
さらに、よく設計されたRepControlNetに基づいて、1つのL20グラフィックカード上で2.5秒以内の推論速度を高速化する。
関連論文リスト
- Omni-ID: Holistic Identity Representation Designed for Generative Tasks [75.29174595706533]
Omni-IDは、様々な表現にまたがる個人の外観に関する全体的な情報をエンコードする。
様々な数の非構造化入力画像から情報を構造化表現に集約する。
様々な生成タスクにまたがる従来の表現よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-12T19:21:20Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation [0.0]
InstantFamilyは、ゼロショットマルチID画像生成を実現するために、新しいクロスアテンション機構とマルチモーダル埋め込みスタックを利用するアプローチである。
本手法は,テキスト条件と統合された事前学習された顔認識モデルから,グローバルな特徴とローカルな特徴を活用することにより,IDを効果的に保存する。
論文 参考訳(メタデータ) (2024-04-30T10:16:21Z) - ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving [64.90148669690228]
ConsistentIDは、微細なマルチモーダル顔のプロンプト下での多彩な画像生成のための革新的な手法である。
我々は、50万以上の顔画像を持つ、きめ細かいポートレートデータセットFGIDを提示し、既存の顔データセットよりも多様性と包括性を提供する。
論文 参考訳(メタデータ) (2024-04-25T17:23:43Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Learning Progressive Modality-shared Transformers for Effective
Visible-Infrared Person Re-identification [27.75907274034702]
我々は,能率VI-ReIDのためのPMT(Progressive Modality-Shared Transformer)という新しいディープラーニングフレームワークを提案する。
モダリティギャップの負の効果を低減するために、まず、グレースケールの画像を補助的なモダリティとして捉え、進歩的な学習戦略を提案する。
クラス内差が大きく,クラス間差が少ない問題に対処するために,識別中心損失を提案する。
論文 参考訳(メタデータ) (2022-12-01T02:20:16Z) - Efficient and Accurate Multi-scale Topological Network for Single Image
Dehazing [31.543771270803056]
本稿では,入力画像自体の特徴抽出と利用に注意を払います。
本稿では,マルチスケールトポロジカルネットワーク (mstn) を提案する。
一方、我々は、異なるスケールで機能の選択と融合を達成するために、マルチスケール機能融合モジュール(MFFM)と適応機能選択モジュール(AFSM)を設計します。
論文 参考訳(メタデータ) (2021-02-24T08:53:14Z) - DCDLearn: Multi-order Deep Cross-distance Learning for Vehicle
Re-Identification [22.547915009758256]
本稿では,車両再識別のための多階深層距離学習モデルを定式化する。
1ビューのCycleGANモデルは、網羅的で列挙的なクロスカメラマッチング問題を緩和するために開発された。
3台の車載Re-IDデータセットによる実験により,提案手法が最先端技術よりも大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2020-03-25T10:46:54Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。