Fugu-MT 論文翻訳(概要): Boost Your Human Image Generation Model via Direct Preference Optimization

論文の概要: Boost Your Human Image Generation Model via Direct Preference Optimization

arxiv url: http://arxiv.org/abs/2405.20216v3
Date: Wed, 09 Apr 2025 06:55:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-10 16:25:03.951425
Title: Boost Your Human Image Generation Model via Direct Preference Optimization
Title（参考訳）: 直接選好最適化による人体画像生成モデルの構築
Authors: Sanghyeon Na, Yonggyu Kim, Hyunjoon Lee,
Abstract要約: 人間の画像生成は、幅広い応用のために画像合成に重要な焦点をあてるが、解剖学、ポーズ、詳細のわずかな不正確さでさえ、現実主義を損なう可能性がある。提案手法は,好ましくない(損失)画像から分岐しながら,好ましくない(勝利)画像を生成するようにモデルを訓練するDPO(Direct Preference Optimization)を提案する。本稿では,高品質な実画像を勝利画像として取り入れたDPO手法を提案する。
参考スコア（独自算出の注目度）: 5.9726297901501475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human image generation is a key focus in image synthesis due to its broad applications, but even slight inaccuracies in anatomy, pose, or details can compromise realism. To address these challenges, we explore Direct Preference Optimization (DPO), which trains models to generate preferred (winning) images while diverging from non-preferred (losing) ones. However, conventional DPO methods use generated images as winning images, limiting realism. To overcome this limitation, we propose an enhanced DPO approach that incorporates high-quality real images as winning images, encouraging outputs to resemble real images rather than generated ones. However, implementing this concept is not a trivial task. Therefore, our approach, HG-DPO (Human image Generation through DPO), employs a novel curriculum learning framework that gradually improves the output of the model toward greater realism, making training more feasible. Furthermore, HG-DPO effectively adapts to personalized text-to-image tasks, generating high-quality and identity-specific images, which highlights the practical value of our approach.
Abstract（参考訳）: 人間の画像生成は、幅広い応用のために画像合成に重要な焦点をあてるが、解剖学、ポーズ、詳細のわずかな不正確さでさえ、現実主義を損なう可能性がある。これらの課題に対処するために、非推奨(ロス)画像から分岐しながら、好ましくない(勝利)画像を生成するモデルをモデルに訓練するDPO(Direct Preference Optimization)について検討する。しかし、従来のDPO法では、生成した画像を勝利画像として使用し、リアリズムを制限する。この制限を克服するために,高品質な実画像を勝利画像として組み込んだ拡張DPO手法を提案する。しかし、この概念の実装は簡単な作業ではありません。そこで本手法では,HG-DPO(Human Image Generation through DPO)という新たなカリキュラム学習フレームワークを導入し,モデルからよりリアルなモデルへの出力を徐々に改善し,より実践的なトレーニングを実現する。さらに、HG-DPOは、パーソナライズされたテキスト・ツー・イメージタスクに効果的に適応し、高品質でアイデンティティ固有の画像を生成し、このアプローチの実践的価値を強調します。

関連論文リスト

Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文参考訳（メタデータ） (2025-05-27T17:50:47Z)
DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition [69.10628479553709]
大規模マルチモーダルモデル(LMM)を拡張した新しいパーソナライズされた画像生成フレームワークであるDRCを紹介する。 DRCは、履歴画像と参照画像から、ユーザスタイルの好みと意味的な意図をそれぞれ明示的に抽出する。本研究は2つの重要な学習段階を包含する。1) スタイルと意味的特徴を明確に分離するために二重解離型学習を用い,難易度を考慮した再構成駆動型パラダイムを用いて最適化し,2) パーソナライズド・パーソナライズド・パーソナライズド・ジェネレーションを効果的に適用するパーソナライズド・モデリング。
論文参考訳（メタデータ） (2025-04-24T08:10:10Z)
Perceive, Understand and Restore: Real-World Image Super-Resolution with Autoregressive Multimodal Generative Models [33.76031793753807]
我々は、自己回帰型マルチモーダルモデルLumina-mGPTを堅牢なReal-ISRモデル、すなわちPUREに適応する。 PUREは入力された低画質の画像を認識して理解し、高品質の画像を復元する。実験により、PUREはリアルな細部を生成しながら、画像の内容を保存していることが示された。
論文参考訳（メタデータ） (2025-03-14T04:33:59Z)
Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文参考訳（メタデータ） (2025-01-31T09:53:47Z)
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文参考訳（メタデータ） (2025-01-23T18:59:43Z)
CART: Compositional Auto-Regressive Transformer for Image Generation [2.5563396001349297]
本稿では,自動回帰(AR)モデリングを用いた画像生成手法を提案する。提案手法は,画像に細かな細部を合成的に繰り返し付加することにより,これらの課題に対処する。この戦略は従来の次世代予測よりも効果的であることが示され、最先端の次世代予測アプローチを超えている。
論文参考訳（メタデータ） (2024-11-15T13:29:44Z)
MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts [61.274246025372044]
顔と手の文脈における人間中心のテキスト・ツー・イメージ生成について検討する。そこで我々は,手近画像と顔画像で訓練した低ランクモジュールをそれぞれ専門家として考慮し,Mixture of Low-rank Experts (MoLE) という手法を提案する。この概念は、カスタマイズされたクローズアップデータセットによって訓練された低ランクモジュールが、適切なスケールで適用された場合、対応する画像部分を強化する可能性があるという、低ランクリファインメント(low-rank refinement)の観察から着想を得たものである。
論文参考訳（メタデータ） (2024-10-30T17:59:57Z)
PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference [62.72779589895124]
画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-10-29T11:49:39Z)
Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文参考訳（メタデータ） (2024-07-10T19:58:04Z)
Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文参考訳（メタデータ） (2024-04-23T14:53:15Z)
Multi Positive Contrastive Learning with Pose-Consistent Generated Images [0.873811641236639]
我々は、同一の人間のポーズで視覚的に異なる画像を生成することを提案する。そこで我々は,これまで生成した画像を最適に活用する,新しいマルチ陽性コントラスト学習を提案する。 GenPoCCLは、現在の最先端技術に比べて1%未満のデータしか利用していないが、人間の身体の構造的特徴をより効果的に捉えている。
論文参考訳（メタデータ） (2024-04-04T07:26:26Z)
Enhancing Image Caption Generation Using Reinforcement Learning with Human Feedback [0.0]
本研究では,人間に好まれるキャプションを生成するために,ディープニューラルネットワークモデルの性能を増幅する潜在的手法を検討する。これは、教師付き学習と強化学習と人間のフィードバックを統合することで達成された。我々は、人間の協調型生成AIモデル分野における継続的な進歩に寄与することを願って、我々のアプローチと結果のスケッチを提供する。
論文参考訳（メタデータ） (2024-03-11T13:57:05Z)
Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文参考訳（メタデータ） (2024-03-11T08:45:31Z)
Towards Effective Usage of Human-Centric Priors in Diffusion Models for Text-based Human Image Generation [24.49857926071974]
バニラテキスト画像拡散モデルでは、正確な人間の画像を生成するのに苦労する。既存のメソッドは、主に余分なイメージでモデルを微調整したり、追加のコントロールを追加することでこの問題に対処する。本稿では,人間中心の先行概念のモデル微調整段階への直接統合について検討する。
論文参考訳（メタデータ） (2024-03-08T11:59:32Z)
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文参考訳（メタデータ） (2023-10-12T17:59:34Z)
Diffusion-HPC: Synthetic Data Generation for Human Mesh Recovery in Challenging Domains [2.7624021966289605]
本研究では,人体構造に関する事前の知識を注入することにより,人体を用いた写真リアルな画像を生成するテキスト条件付き手法を提案する。生成した画像には3Dメッシュが伴い、ヒューマンメッシュ回復タスクを改善するための土台となる。
論文参考訳（メタデータ） (2023-03-16T17:53:44Z)
Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文参考訳（メタデータ） (2023-02-23T17:34:53Z)
HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文参考訳（メタデータ） (2022-11-11T14:30:34Z)
A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文参考訳（メタデータ） (2021-12-07T05:22:50Z)
LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-27T01:54:45Z)
PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models [77.32079593577821]
PULSE (Photo Upsampling via Latent Space Exploration) は、それまで文献になかった解像度で高解像度でリアルな画像を生成する。本手法は, 従来よりも高分解能, スケールファクターの知覚品質において, 最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2020-03-08T16:44:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。