論文の概要: Boost Your Human Image Generation Model via Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2405.20216v2
- Date: Mon, 31 Mar 2025 04:55:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:31:42.045856
- Title: Boost Your Human Image Generation Model via Direct Preference Optimization
- Title(参考訳): 直接選好最適化による人体画像生成モデルの構築
- Authors: Sanghyeon Na, Yonggyu Kim, Hyunjoon Lee,
- Abstract要約: 人間の画像生成は、幅広い応用のために画像合成に重要な焦点をあてるが、解剖学、ポーズ、詳細のわずかな不正確さでさえ、現実主義を損なう可能性がある。
提案手法は,好ましくない(損失)画像から分岐しながら,好ましくない(勝利)画像を生成するようにモデルを訓練するDPO(Direct Preference Optimization)を提案する。
本稿では,高品質な実画像を勝利画像として取り入れたDPO手法を提案する。
- 参考スコア(独自算出の注目度): 5.9726297901501475
- License:
- Abstract: Human image generation is a key focus in image synthesis due to its broad applications, but even slight inaccuracies in anatomy, pose, or details can compromise realism. To address these challenges, we explore Direct Preference Optimization (DPO), which trains models to generate preferred (winning) images while diverging from non-preferred (losing) ones. However, conventional DPO methods use generated images as winning images, limiting realism. To overcome this limitation, we propose an enhanced DPO approach that incorporates high-quality real images as winning images, encouraging outputs to resemble real images rather than generated ones. However, implementing this concept is not a trivial task. Therefore, our approach, HG-DPO (Human image Generation through DPO), employs a novel curriculum learning framework that gradually improves the output of the model toward greater realism, making training more feasible. Furthermore, HG-DPO effectively adapts to personalized text-to-image tasks, generating high-quality and identity-specific images, which highlights the practical value of our approach.
- Abstract(参考訳): 人間の画像生成は、幅広い応用のために画像合成に重要な焦点をあてるが、解剖学、ポーズ、詳細のわずかな不正確さでさえ、現実主義を損なう可能性がある。
これらの課題に対処するために、非推奨(ロス)画像から分岐しながら、好ましくない(勝利)画像を生成するモデルをモデルに訓練するDPO(Direct Preference Optimization)について検討する。
しかし、従来のDPO法では、生成した画像を勝利画像として使用し、リアリズムを制限する。
この制限を克服するために,高品質な実画像を勝利画像として組み込んだ拡張DPO手法を提案する。
しかし、この概念の実装は簡単な作業ではありません。
そこで本手法では,HG-DPO(Human Image Generation through DPO)という新たなカリキュラム学習フレームワークを導入し,モデルからよりリアルなモデルへの出力を徐々に改善し,より実践的なトレーニングを実現する。
さらに、HG-DPOは、パーソナライズされたテキスト・ツー・イメージタスクに効果的に適応し、高品質でアイデンティティ固有の画像を生成し、このアプローチの実践的価値を強調します。
関連論文リスト
- Human Body Restoration with One-Step Diffusion Model and A New Benchmark [74.66514054623669]
本稿では,高品質な自動収穫・フィルタリング(HQ-ACF)パイプラインを提案する。
このパイプラインは、既存のオブジェクト検出データセットやその他のラベル付けされていないイメージを活用して、高品質な人間の画像を自動的にトリミングし、フィルタリングする。
また,人体修復のための新しい1段階拡散モデルであるemphOSDHumanを提案する。
論文 参考訳(メタデータ) (2025-02-03T14:48:40Z) - GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data [61.05815629606135]
高忠実度3Dモデルを構築するのが難しい課題です。
GeneMANは高品質な人間のデータを総合的に収集する。
GeneMANは、単一の画像入力から高品質な3Dモデルを生成することができ、最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-27T18:59:54Z) - MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts [61.274246025372044]
顔と手の文脈における人間中心のテキスト・ツー・イメージ生成について検討する。
そこで我々は,手近画像と顔画像で訓練した低ランクモジュールをそれぞれ専門家として考慮し,Mixture of Low-rank Experts (MoLE) という手法を提案する。
この概念は、カスタマイズされたクローズアップデータセットによって訓練された低ランクモジュールが、適切なスケールで適用された場合、対応する画像部分を強化する可能性があるという、低ランクリファインメント(low-rank refinement)の観察から着想を得たものである。
論文 参考訳(メタデータ) (2024-10-30T17:59:57Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Multi Positive Contrastive Learning with Pose-Consistent Generated Images [0.873811641236639]
我々は、同一の人間のポーズで視覚的に異なる画像を生成することを提案する。
そこで我々は,これまで生成した画像を最適に活用する,新しいマルチ陽性コントラスト学習を提案する。
GenPoCCLは、現在の最先端技術に比べて1%未満のデータしか利用していないが、人間の身体の構造的特徴をより効果的に捉えている。
論文 参考訳(メタデータ) (2024-04-04T07:26:26Z) - Enhancing Image Caption Generation Using Reinforcement Learning with
Human Feedback [0.0]
本研究では,人間に好まれるキャプションを生成するために,ディープニューラルネットワークモデルの性能を増幅する潜在的手法を検討する。
これは、教師付き学習と強化学習と人間のフィードバックを統合することで達成された。
我々は、人間の協調型生成AIモデル分野における継続的な進歩に寄与することを願って、我々のアプローチと結果のスケッチを提供する。
論文 参考訳(メタデータ) (2024-03-11T13:57:05Z) - Towards Effective Usage of Human-Centric Priors in Diffusion Models for
Text-based Human Image Generation [24.49857926071974]
バニラテキスト画像拡散モデルでは、正確な人間の画像を生成するのに苦労する。
既存のメソッドは、主に余分なイメージでモデルを微調整したり、追加のコントロールを追加することでこの問題に対処する。
本稿では,人間中心の先行概念のモデル微調整段階への直接統合について検討する。
論文 参考訳(メタデータ) (2024-03-08T11:59:32Z) - Diffusion-HPC: Synthetic Data Generation for Human Mesh Recovery in
Challenging Domains [2.7624021966289605]
本研究では,人体構造に関する事前の知識を注入することにより,人体を用いた写真リアルな画像を生成するテキスト条件付き手法を提案する。
生成した画像には3Dメッシュが伴い、ヒューマンメッシュ回復タスクを改善するための土台となる。
論文 参考訳(メタデータ) (2023-03-16T17:53:44Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。