論文の概要: Learning User Preferences for Image Generation Model
- arxiv url: http://arxiv.org/abs/2508.08220v1
- Date: Mon, 11 Aug 2025 17:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.241202
- Title: Learning User Preferences for Image Generation Model
- Title(参考訳): 画像生成モデルにおけるユーザ嗜好の学習
- Authors: Wenyi Mo, Ying Ba, Tianyu Zhang, Yalong Bai, Biye Li,
- Abstract要約: 本稿では,マルチモーダルな大規模言語モデルに基づいて,パーソナライズされたユーザの好みを学習する手法を提案する。
対照的な選好損失は、利用者の「好き」と「嫌い」を効果的に区別するように設計されている。
学習可能な選好トークンは、既存のユーザ間で共有された関心表現をキャプチャし、モデルがグループ固有の選好を活性化し、類似ユーザ間の一貫性を高める。
- 参考スコア(独自算出の注目度): 15.884017849539754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User preference prediction requires a comprehensive and accurate understanding of individual tastes. This includes both surface-level attributes, such as color and style, and deeper content-related aspects, such as themes and composition. However, existing methods typically rely on general human preferences or assume static user profiles, often neglecting individual variability and the dynamic, multifaceted nature of personal taste. To address these limitations, we propose an approach built upon Multimodal Large Language Models, introducing contrastive preference loss and preference tokens to learn personalized user preferences from historical interactions. The contrastive preference loss is designed to effectively distinguish between user ''likes'' and ''dislikes'', while the learnable preference tokens capture shared interest representations among existing users, enabling the model to activate group-specific preferences and enhance consistency across similar users. Extensive experiments demonstrate our model outperforms other methods in preference prediction accuracy, effectively identifying users with similar aesthetic inclinations and providing more precise guidance for generating images that align with individual tastes. The project page is \texttt{https://learn-user-pref.github.io/}.
- Abstract(参考訳): ユーザの好みを予測するには、個人の好みを包括的かつ正確に理解する必要がある。
これには、色やスタイルなどの表面的な属性と、テーマやコンポジションといったより深い内容に関する側面の両方が含まれている。
しかし、既存の手法は一般に人間の好みに頼り、静的なユーザープロファイルを仮定し、しばしば個人の多様性や、動的で多面的な個人の嗜好を無視する。
これらの制約に対処するために,マルチモーダルな大規模言語モデルに基づくアプローチを提案する。
一方、学習可能な選好トークンは既存のユーザ間で共有された関心表現をキャプチャし、グループ固有の選好を活性化し、類似ユーザ間の一貫性を高める。
広範囲な実験により、我々のモデルは好みの予測精度において他の手法よりも優れており、類似した審美的傾向を持つユーザを効果的に識別し、個々の嗜好と整合した画像を生成するためのより正確なガイダンスを提供する。
プロジェクトページは \texttt{https://learn-user-pref.github.io/} である。
関連論文リスト
- PrefPalette: Personalized Preference Modeling with Latent Attributes [59.58648056175468]
PrefPaletteは、好みを属性の次元に分解するフレームワークである。
好みの予測を、異なる社会的価値に合わせる。
PrefPaletteは平均予測精度でGPT-4oを46.6%上回っている。
論文 参考訳(メタデータ) (2025-07-17T21:21:54Z) - NextQuill: Causal Preference Modeling for Enhancing LLM Personalization [82.15961484963256]
因果選好モデルに基づく新しいパーソナライズフレームワークであるNextQuillを紹介する。
この洞察に基づいて、NextQuillは2つの補完的なアライメント戦略を導入した。
複数のパーソナライズベンチマークの実験により、NextQuillはパーソナライズ品質を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-06-03T02:08:55Z) - WikiPersonas: What Can We Learn From Personalized Alignment to Famous People? [14.801237597577169]
WikiPersona(ウィキペソナ)について紹介する。
異なるパーソナライズ手法の評価を行い、テキスト推論された個人選好をプレフィックスとして用いることで、効果的なパーソナライズが可能になることを発見した。
論文 参考訳(メタデータ) (2025-05-19T15:39:48Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - ViPer: Visual Personalization of Generative Models via Individual Preference Learning [11.909247529297678]
本稿では,画像生成プロセスのパーソナライズを,ユーザの汎用的な嗜好を1回に分けて行うことを提案する。
これらのコメントに基づいて、ユーザの構造化された好き嫌いや視覚的属性を推測する。
これらの属性は、個々のユーザの視覚的嗜好に合わせて調整された画像を生成するために、テキスト・ツー・イメージ・モデルを導くために使用される。
論文 参考訳(メタデータ) (2024-07-24T15:42:34Z) - Learning User Embeddings from Human Gaze for Personalised Saliency Prediction [12.361829928359136]
本稿では,自然画像のペアと対応する相性マップからユーザ埋め込みを抽出する新しい手法を提案する。
提案手法のコアとなるのは,異なるユーザのイメージと個人満足度マップのペアを対比することにより,ユーザの埋め込みを学習する,シームズ畳み込みニューラルエンコーダである。
論文 参考訳(メタデータ) (2024-03-20T14:58:40Z) - Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。
P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - PR-Net: Preference Reasoning for Personalized Video Highlight Detection [34.71807317380797]
本稿では,フレームレベルのハイライト予測を考慮し,多種多様な関心事を考慮した簡易かつ効率的な選好推論フレームワーク(PR-Net)を提案する。
提案手法は, 平均精度が12%向上し, 最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2021-09-04T06:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。