論文の概要: Pareto-Enhanced Portrait Generation: Vision-Aligned Text Supervision for Alignment, Realism, and Aesthetics
- arxiv url: http://arxiv.org/abs/2605.20640v1
- Date: Wed, 20 May 2026 02:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.447783
- Title: Pareto-Enhanced Portrait Generation: Vision-Aligned Text Supervision for Alignment, Realism, and Aesthetics
- Title(参考訳): Pareto-Enhanced Portrait Generation: Vision-Aligned Text Supervision for Alignment, Realism, and Aesthetics
- Authors: Yunlong Wang, Jinjin Shi, Wenbin Gao, Xuran Xu, Runyu Shi, Ying Huang,
- Abstract要約: Supervised Fine-Tuning (SFT) は、画像生成の光リアリズムを高める効果的な方法である。
マルチモーダル拡散変換器(MM-DiT)の機能管理パラダイムを提案する。
本手法は,基本モデルの本来の一般化を保ちながら,視覚対応のテキストガイダンスを注入する。
- 参考スコア(独自算出の注目度): 4.869547847532734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models often face a severe trilemma in human portrait generation: text-image alignment, photorealism, and human-perceived aesthetics inherently inhibit one another. Supervised Fine-Tuning (SFT) is an effective method for enhancing the photorealism of image generation. However, it often leads to overfitting to the training dataset, corrupts pre-trained image priors, and degrades alignment or aesthetics. To break this bottleneck, we propose a feature supervision paradigm for Multimodal Diffusion Transformers (MM-DiT). Specifically, we introduce a lightweight cross-modal alignment mechanism that implicitly extracts multi-granularity vision-aligned text representations from SigLIP 2 and applies supervision to the image branch of MM-DiT during the training stage, with zero extra inference overhead. Our method injects vision-aligned text guidance while preserving the base model's original generalization, avoiding degradation caused by SFT. Furthermore, our method directly mines implicit multi-granularity aesthetic signals from pre-trained vision foundation models to optimize human-perceived aesthetics. Extensive experiments on MM-DiTs show that our method pushes the Pareto frontier and achieves synergistic improvements across text-image alignment, photorealism, and human-perceived aesthetics.
- Abstract(参考訳): テキスト・ツー・イメージの拡散モデルは、テキスト・イメージのアライメント、フォトリアリズム、人間の知覚的美学など、人間の肖像画生成において深刻なトリレンマに直面していることが多い。
Supervised Fine-Tuning (SFT) は、画像生成の光リアリズムを高める効果的な方法である。
しかし、トレーニングデータセットに過度に適合し、事前トレーニングされたイメージを破損させ、アライメントや美学を低下させることが多い。
このボトルネックを克服するために,マルチモーダル拡散変換器(MM-DiT)の機能管理パラダイムを提案する。
具体的には、SigLIP 2から暗黙的に多粒度視覚対応のテキスト表現を抽出し、トレーニング段階でMM-DiTのイメージブランチに監督を施す軽量なモーダルアライメント機構を導入する。
本手法は,SFTによる劣化を回避しつつ,ベースモデルの本来の一般化を保ちながら,視線に整合したテキストガイダンスを注入する。
さらに,視覚基礎モデルの暗黙的多粒性美信号を直接マイニングし,人間の知覚美学を最適化する。
MM-DiTの広汎な実験により,本手法はパレートフロンティアを押し上げ,テキスト画像アライメント,フォトリアリズム,人間知覚美学の相乗効果を実現することが示された。
関連論文リスト
- DMAligner: Enhancing Image Alignment via Diffusion Model Based View Synthesis [63.59932602411222]
DMAlignerは、アライメント指向ビュー合成による画像アライメントのための拡散ベースのフレームワークである。
条件付き画像生成学習のためのダイナミクス対応拡散訓練手法を提案する。
我々は,Blenderを用いたダイナミックシーン画像アライメント(DSIA)データセットを開発した。
論文 参考訳(メタデータ) (2026-02-26T14:00:07Z) - Learning Deblurring Texture Prior from Unpaired Data with Diffusion Model [92.61216319417208]
画像の劣化に対する新しい拡散モデル(DM)に基づくフレームワークを提案する。
我々の研究は、ぼやけた画像のテクスチャを回復するのに役立つ事前知識を生成するために、DMを実行する。
生成したテクスチャをフル活用するために,テクスチャ転送変換層(TTformer)を提案する。
論文 参考訳(メタデータ) (2025-07-18T01:50:31Z) - Autoregressive Image Generation with Vision Full-view Prompt [18.569610688433745]
自動回帰画像生成のための視覚フルビュープロンプト(VFプロンプト)を提案する。
NLPの分野でのプロンプトエンジニアリングにインスパイアされ、自動回帰画像生成を改善するためにビジョンフルビュープロンプト(VFプロンプト)を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:44:01Z) - Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [49.04935506942202]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
マルチモーダル生成PreTraining (mGPT) を初期化することにより、デコーダのみの自己回帰(AR)モデルが、現代の拡散モデルに匹敵する画像生成性能を実現できることを示す。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z) - Empowering Low-Light Image Enhancer through Customized Learnable Priors [40.83461757842304]
そこで本稿では,学習先をカスタマイズする可能性を探る,低照度画像強調のためのパラダイムを提案する。
Masked Autoencoder(MAE)の強力な特徴表現機能によって、我々はMAEベースの照明とノイズ先行をカスタマイズする。
論文 参考訳(メタデータ) (2023-09-05T05:20:11Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Inverting Generative Adversarial Renderer for Face Reconstruction [58.45125455811038]
本稿では,GAR(Generative Adversa Renderer)について紹介する。
GARは、グラフィックルールに頼るのではなく、複雑な現実世界のイメージをモデル化することを学ぶ。
本手法は,複数顔再構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-05-06T04:16:06Z) - Deep CG2Real: Synthetic-to-Real Translation via Image Disentanglement [78.58603635621591]
画像空間における未ペアの合成-現実翻訳ネットワークの訓練は、厳しい制約下にある。
画像の非交叉シェーディング層とアルベド層に作用する半教師付きアプローチを提案する。
私たちの2段階のパイプラインはまず、物理ベースのレンダリングをターゲットとして、教師付き方法で正確なシェーディングを予測することを学習します。
論文 参考訳(メタデータ) (2020-03-27T21:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。