論文の概要: FPGA: Flexible Portrait Generation Approach
- arxiv url: http://arxiv.org/abs/2408.09248v3
- Date: Sun, 23 Feb 2025 12:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:55.447085
- Title: FPGA: Flexible Portrait Generation Approach
- Title(参考訳): FPGA:フレキシブルなポートレート生成アプローチ
- Authors: Zhaoli Deng, Fanyi Wang, Junkang Zhang, Fan Chen, Meng Zhang, Wendong Zhang, Wen Liu, Zhenpeng Mi,
- Abstract要約: 我々は,100万レベルのマルチモーダルデータセットIDZoomをトレーニング用に構築するFPGAと呼ばれる包括的システムを提案する。
FPGA は Multi-Mode Fusion Training Strategy (MMF) と DDIM Inversion based ID Restoration Inference framework (DIIR) から構成される。
DIIRはプラグアンドプレイであり、どんな拡散ベースのポートレート生成にも適用でき、性能が向上する。
- 参考スコア(独自算出の注目度): 11.002947043723617
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Portrait Fidelity Generation is a prominent research area in generative models.Current methods face challenges in generating full-body images with low-resolution faces, especially in multi-ID photo phenomenon.To tackle these issues, we propose a comprehensive system called FPGA and construct a million-level multi-modal dataset IDZoom for training.FPGA consists of Multi-Mode Fusion training strategy (MMF) and DDIM Inversion based ID Restoration inference framework (DIIR). The MMF aims to activate the specified ID in the specified facial region. The DIIR aims to address the issue of face artifacts while keeping the background.Furthermore, DIIR is plug-and-play and can be applied to any diffusion-based portrait generation method to enhance their performance. DIIR is also capable of performing face-swapping tasks and is applicable to stylized faces as well.To validate the effectiveness of FPGA, we conducted extensive comparative and ablation experiments. The experimental results demonstrate that FPGA has significant advantages in both subjective and objective metrics, and achieves controllable generation in multi-ID scenarios. In addition, we accelerate the inference speed to within 2.5 seconds on a single L20 graphics card mainly based on our well designed reparameterization method, RepControlNet.
- Abstract(参考訳): ポートレートフィデリティ生成は、生成モデルにおいて顕著な研究領域であり、特にマルチID写真現象において、低解像度の顔を持つフルボディ画像を生成する際の課題に直面している。これらの問題に対処するために、FPGAと呼ばれる包括的システムを提案し、トレーニング用に100万レベルのマルチモーダルデータセットIDZoomを構築する。FPGAは、Multi-Mode Fusion Training Strategy(MMF)とDDIM Inversion based ID Restoration Inference framework(DIIR)から構成される。
MMFは、指定された顔領域で指定されたIDを活性化することを目的としている。
さらに、DIIRはプラグアンドプレイであり、拡散型ポートレート生成法にも適用でき、その性能を向上させることができる。
また, FPGAの有効性を検証するために, 広範に比較・アブレーション実験を行った。
実験の結果,FPGAは主観的,客観的両指標において大きな優位性を示し,マルチIDシナリオにおいて制御可能な生成を実現する。
さらに、よく設計されたRepControlNetに基づいて、1つのL20グラフィックカード上で2.5秒以内の推論速度を高速化する。
関連論文リスト
- DreamID: High-Fidelity and Fast diffusion-based Face Swapping via Triplet ID Group Learning [8.184155602678754]
DreamIDは、高レベルのID類似性、属性保存、画像の忠実性、高速推論速度を実現する拡散ベースの顔交換モデルである。
本稿では,SwapNet,FaceNet,IDAdapterを組み合わせた拡散モデルアーキテクチャを提案する。
DreamIDは、アイデンティティの類似性、ポーズと表現の保存、イメージの忠実性の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2025-04-20T06:53:00Z) - FusionSegReID: Advancing Person Re-Identification with Multimodal Retrieval and Precise Segmentation [42.980289787679084]
人物再識別(ReID)は、セキュリティ監視や犯罪捜査などのアプリケーションにおいて、重複しないカメラによってキャプチャされた大きな画像ギャラリーの個人をマッチングすることで、重要な役割を果たす。
従来のReIDの手法は、通常画像のような単調な入力に依存するが、オクルージョン、照明の変更、バリエーションのポーズといった課題のために、制限に直面している。
本稿では,画像入力とテキスト入力を組み合わせたマルチモーダルモデルFusionSegReIDを提案する。
論文 参考訳(メタデータ) (2025-03-27T15:14:03Z) - MMGen: Unified Multi-modal Image Generation and Understanding in One Go [60.97155790727879]
本稿では,複数の生成タスクを単一の拡散モデルに統合する統合フレームワークMMGenを紹介する。
提案手法は,マルチモーダル出力を柔軟にサポートし,単純なモーダルデカップリング戦略とともに,新しい拡散トランスフォーマを開発する。
論文 参考訳(メタデータ) (2025-03-26T15:37:17Z) - Multi-focal Conditioned Latent Diffusion for Person Image Synthesis [59.113899155476005]
遅延拡散モデル(LDM)は高解像度画像生成において強力な機能を示した。
これらの制約に対処する多焦点条件付き潜時拡散法(MCLD)を提案する。
本手法では,顔の同一性やテクスチャ固有の情報を効果的に統合する多焦点条件アグリゲーションモジュールを利用する。
論文 参考訳(メタデータ) (2025-03-19T20:50:10Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation [0.0]
InstantFamilyは、ゼロショットマルチID画像生成を実現するために、新しいクロスアテンション機構とマルチモーダル埋め込みスタックを利用するアプローチである。
本手法は,テキスト条件と統合された事前学習された顔認識モデルから,グローバルな特徴とローカルな特徴を活用することにより,IDを効果的に保存する。
論文 参考訳(メタデータ) (2024-04-30T10:16:21Z) - ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving [66.09976326184066]
ConsistentIDは、微細なマルチモーダル顔のプロンプト下での多彩な画像生成のための革新的な手法である。
我々は、50万以上の顔画像を持つ、きめ細かいポートレートデータセットFGIDを提示し、既存の顔データセットよりも多様性と包括性を提供する。
論文 参考訳(メタデータ) (2024-04-25T17:23:43Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - Learning Progressive Modality-shared Transformers for Effective
Visible-Infrared Person Re-identification [27.75907274034702]
我々は,能率VI-ReIDのためのPMT(Progressive Modality-Shared Transformer)という新しいディープラーニングフレームワークを提案する。
モダリティギャップの負の効果を低減するために、まず、グレースケールの画像を補助的なモダリティとして捉え、進歩的な学習戦略を提案する。
クラス内差が大きく,クラス間差が少ない問題に対処するために,識別中心損失を提案する。
論文 参考訳(メタデータ) (2022-12-01T02:20:16Z) - Physically-Based Face Rendering for NIR-VIS Face Recognition [165.54414962403555]
近赤外(NIR)と可視(VIS)の顔マッチングは、大きなドメインギャップのために困難である。
NIR-VIS対顔画像生成のための新しい手法を提案する。
アイデンティティ特徴学習を容易にするために,IDentityに基づく最大平均離散性(ID-MMD)損失を提案する。
論文 参考訳(メタデータ) (2022-11-11T18:48:16Z) - MAXIM: Multi-Axis MLP for Image Processing [19.192826213493838]
本稿では,画像処理タスクの汎用的なバックボーンとして,MAXIMと呼ばれるマルチ軸アーキテクチャを提案する。
MAXIMはUNet型の階層構造を使用し、空間的なゲートによって可能となる長距離相互作用をサポートする。
その結果, MAXIMモデルにより, 画像処理タスクの10以上のベンチマークにおいて, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-01-09T09:59:32Z) - Efficient and Accurate Multi-scale Topological Network for Single Image
Dehazing [31.543771270803056]
本稿では,入力画像自体の特徴抽出と利用に注意を払います。
本稿では,マルチスケールトポロジカルネットワーク (mstn) を提案する。
一方、我々は、異なるスケールで機能の選択と融合を達成するために、マルチスケール機能融合モジュール(MFFM)と適応機能選択モジュール(AFSM)を設計します。
論文 参考訳(メタデータ) (2021-02-24T08:53:14Z) - DCDLearn: Multi-order Deep Cross-distance Learning for Vehicle
Re-Identification [22.547915009758256]
本稿では,車両再識別のための多階深層距離学習モデルを定式化する。
1ビューのCycleGANモデルは、網羅的で列挙的なクロスカメラマッチング問題を緩和するために開発された。
3台の車載Re-IDデータセットによる実験により,提案手法が最先端技術よりも大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2020-03-25T10:46:54Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。