論文の概要: FairHuman: Boosting Hand and Face Quality in Human Image Generation with Minimum Potential Delay Fairness in Diffusion Models
- arxiv url: http://arxiv.org/abs/2507.02714v1
- Date: Thu, 03 Jul 2025 15:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.501487
- Title: FairHuman: Boosting Hand and Face Quality in Human Image Generation with Minimum Potential Delay Fairness in Diffusion Models
- Title(参考訳): FairHuman: 拡散モデルによる人体画像生成における手と顔の品質向上
- Authors: Yuxuan Wang, Tianwei Cao, Huayu Zhang, Zhongjiang He, Kongming Liang, Zhanyu Ma,
- Abstract要約: 本稿では,グローバルおよびローカルな生成品質を公平に向上するために,多目的微調整手法を提案する。
最小電位遅延(MPD)基準に基づく最適パラメータ更新戦略を導出する。
提案手法は,全体の品質を維持しながら,挑戦的な局所的な細部の生成において,大幅な改善を実現することができる。
- 参考スコア(独自算出の注目度): 21.03185704537153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image generation has achieved remarkable progress with the development of large-scale text-to-image models, especially diffusion-based models. However, generating human images with plausible details, such as faces or hands, remains challenging due to insufficient supervision of local regions during training. To address this issue, we propose FairHuman, a multi-objective fine-tuning approach designed to enhance both global and local generation quality fairly. Specifically, we first construct three learning objectives: a global objective derived from the default diffusion objective function and two local objectives for hands and faces based on pre-annotated positional priors. Subsequently, we derive the optimal parameter updating strategy under the guidance of the Minimum Potential Delay (MPD) criterion, thereby attaining fairness-ware optimization for this multi-objective problem. Based on this, our proposed method can achieve significant improvements in generating challenging local details while maintaining overall quality. Extensive experiments showcase the effectiveness of our method in improving the performance of human image generation under different scenarios.
- Abstract(参考訳): 画像生成は、大規模なテキスト・画像モデル、特に拡散モデルの開発で顕著な進歩を遂げた。
しかし、訓練中は現地の監督が不十分であったため、顔や手などの明細な人物画像の生成は依然として困難である。
この問題を解決するためにFairHumanを提案する。FairHumanは、グローバルおよびローカル両方の生成品質を公平に向上するために設計された、多目的の微調整アプローチである。
具体的には、まず、既定拡散目的関数から導出される大域的目的と、事前に注釈付けされた位置先に基づく手と顔の2つの局所的目的の3つの学習目標を構築する。
その後、最小電位遅延(MPD)基準に基づく最適パラメータ更新戦略を導出し、この多目的問題に対する公平性を考慮した最適化を実現する。
提案手法は,全体の品質を保ちながら,局部的な課題を生み出す上で,大幅な改善を実現することができる。
大規模な実験により,異なるシナリオ下での人体画像生成の性能向上に本手法の有効性が示された。
関連論文リスト
- Optimizing Human Pose Estimation Through Focused Human and Joint Regions [18.37601213802529]
人間のポーズ推定は、アクション認識、スポーツ分析、監視など、幅広い斬新で魅力的な応用を生み出している。
従来の方法は、対象の人体に焦点をあてるのではなく、すべてのピクセルから動きの手がかりを学習し、背景の変化や他者の動きといった重要でない情報によって容易に誤解され、破壊される。
本稿では,不重要な図形領域をマスキングしながら,対象の人体やキーポイントに徐々にズームインする,粗い視覚トークンの精細化を行う2層型Human-Keypoint Maskモジュールを提案する。
提案手法は3つの大規模ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-01-24T12:17:47Z) - Reward Incremental Learning in Text-to-Image Generation [26.64026346266299]
本稿では,計算オーバーヘッドを最小限に抑える方法であるReward Incremental Distillation(RID)を提案する。
実験結果から,RILシナリオにおける一貫した高次勾配生成の実現におけるRIDの有効性が示された。
論文 参考訳(メタデータ) (2024-11-26T10:54:33Z) - MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts [61.274246025372044]
顔と手の文脈における人間中心のテキスト・ツー・イメージ生成について検討する。
そこで我々は,手近画像と顔画像で訓練した低ランクモジュールをそれぞれ専門家として考慮し,Mixture of Low-rank Experts (MoLE) という手法を提案する。
この概念は、カスタマイズされたクローズアップデータセットによって訓練された低ランクモジュールが、適切なスケールで適用された場合、対応する画像部分を強化する可能性があるという、低ランクリファインメント(low-rank refinement)の観察から着想を得たものである。
論文 参考訳(メタデータ) (2024-10-30T17:59:57Z) - High Quality Human Image Animation using Regional Supervision and Motion Blur Condition [97.97432499053966]
我々は、顔と手の忠実度を高めるために、詳細な地域に対する地域監督を活用している。
第二に、動作のぼかしを明示的にモデル化し、外観の質をさらに向上させる。
第3に,高精細な人体アニメーションのための新しいトレーニング戦略を探求し,全体の忠実度を向上する。
論文 参考訳(メタデータ) (2024-09-29T06:46:31Z) - Boost Your Human Image Generation Model via Direct Preference Optimization [5.9726297901501475]
人間の画像生成は、幅広い応用のために画像合成に重要な焦点をあてるが、解剖学、ポーズ、詳細のわずかな不正確さでさえ、現実主義を損なう可能性がある。
提案手法は,好ましくない(損失)画像から分岐しながら,好ましくない(勝利)画像を生成するようにモデルを訓練するDPO(Direct Preference Optimization)を提案する。
本稿では,高品質な実画像を勝利画像として取り入れたDPO手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T16:18:05Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Multi-Human Mesh Recovery with Transformers [5.420974192779563]
本稿では,マルチスケール機能の導入,集中型注意機構,相対的共同管理という3つの重要な設計選択を特徴とする,合理化トランスフォーマーに基づく設計モデルを提案する。
提案モデルでは、複数の個人を含む様々なベンチマークにおいて、最先端の領域ベースおよび全体像ベースの手法を超越した、大幅な性能向上を示す。
論文 参考訳(メタデータ) (2024-02-26T18:28:05Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。