論文の概要: Personalizing Text-to-Image Generation to Individual Taste
- arxiv url: http://arxiv.org/abs/2604.07427v1
- Date: Wed, 08 Apr 2026 17:35:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.475969
- Title: Personalizing Text-to-Image Generation to Individual Taste
- Title(参考訳): 個人味へのテキスト・ツー・イメージ生成のパーソナライズ
- Authors: Anne-Sofie Maerten, Juliane Verwiebe, Shyamgopal Karthik, Ameya Prabhu, Johan Wagemans, Matthias Bethge,
- Abstract要約: 我々は、パーソナライズされた画像評価をモデル化するための新しいデータセットと予測フレームワーク、PAMELAを紹介した。
私たちのデータセットは、最先端のモデルによって生成される5000の多様な画像に対して、70,000のレーティングで構成されています。
我々のモデルは、現在の最先端手法の大多数よりも高い精度で個人の好みを予測する。
- 参考スコア(独自算出の注目度): 27.034209539539926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern text-to-image (T2I) models generate high-fidelity visuals but remain indifferent to individual user preferences. While existing reward models optimize for "average" human appeal, they fail to capture the inherent subjectivity of aesthetic judgment. In this work, we introduce a novel dataset and predictive framework, called PAMELA, designed to model personalized image evaluations. Our dataset comprises 70,000 ratings across 5,000 diverse images generated by state-of-the-art models (Flux 2 and Nano Banana). Each image is evaluated by 15 unique users, providing a rich distribution of subjective preferences across domains such as art, design, fashion, and cinematic photography. Leveraging this data, we propose a personalized reward model trained jointly on our high-quality annotations and existing aesthetic assessment subsets. We demonstrate that our model predicts individual liking with higher accuracy than the majority of current state-of-the-art methods predict population-level preferences. Using our personalized predictor, we demonstrate how simple prompt optimization methods can be used to steer generations towards individual user preferences. Our results highlight the importance of data quality and personalization to handle the subjectivity of user preferences. We release our dataset and model to facilitate standardized research in personalized T2I alignment and subjective visual quality assessment.
- Abstract(参考訳): 現代のテキスト・トゥ・イメージ(T2I)モデルは、高忠実なビジュアルを生成するが、個々のユーザの好みには無関心である。
既存の報酬モデルは「平均的な」人間の魅力を最適化するが、美的判断の固有の主観性を捉えない。
本研究では,パーソナライズされた画像評価をモデル化するための新しいデータセットと予測フレームワーク PAMELA を提案する。
我々のデータセットは、最先端のモデル(Flux 2とNano Banana)によって生成される5000の多様な画像に対して70,000のレーティングで構成されています。
それぞれの画像は15のユニークなユーザーによって評価され、芸術、デザイン、ファッション、撮影などの領域で主観的な好みの豊富な分布を提供する。
このデータを活用することで、高品質なアノテーションと既存の美的評価サブセットを併用したパーソナライズされた報酬モデルを提案する。
本モデルでは, 個人の嗜好を現在の最先端手法よりも高い精度で予測し, 人口レベルの嗜好を予測する。
パーソナライズされた予測器を用いて、各ユーザの好みに合わせて、世代を操るシンプルなプロンプト最適化手法をいかに簡単に利用できるかを実証する。
本結果は,ユーザの嗜好の主観性を扱うためのデータ品質とパーソナライゼーションの重要性を強調した。
我々は、パーソナライズされたT2Iアライメントと主観的視覚的品質評価における標準化された研究を促進するために、データセットとモデルをリリースする。
関連論文リスト
- PreferThinker: Reasoning-based Personalized Image Preference Assessment [83.66114370585976]
推論に基づくパーソナライズされた画像嗜好評価フレームワークを提案する。
まず、ユーザーの好みプロファイルを参照画像から予測する。
次に、解釈可能で多次元のスコアと候補画像の評価を提供する。
論文 参考訳(メタデータ) (2025-11-01T16:19:51Z) - ImageGem: In-the-wild Generative Image Interaction Dataset for Generative Model Personalization [11.7261367003714]
ImageGemは、きめ細かい個々の好みを理解する生成モデルを研究するためのデータセットである。
われわれのデータセットには57Kユーザによる実世界のインタラクションデータが含まれており、242KのカスタマイズされたLoRA、3Mのテキストプロンプト、5Mの生成された画像がまとめられている。
論文 参考訳(メタデータ) (2025-10-21T09:08:01Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - Scaling Up Personalized Image Aesthetic Assessment via Task Vector Customization [37.66059382315255]
本稿では,画像の審美性評価や画質評価に手軽に利用できるデータベースを活用する,ユニークなアプローチを提案する。
各データベースの特徴を表すタスクベクトルの最適な組み合わせを決定することにより、個人向けにパーソナライズされたモデルを作成することに成功した。
論文 参考訳(メタデータ) (2024-07-09T18:42:41Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。