論文の概要: ImageGem: In-the-wild Generative Image Interaction Dataset for Generative Model Personalization
- arxiv url: http://arxiv.org/abs/2510.18433v1
- Date: Tue, 21 Oct 2025 09:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.22525
- Title: ImageGem: In-the-wild Generative Image Interaction Dataset for Generative Model Personalization
- Title(参考訳): ImageGem:世代モデルパーソナライズのための世代間相互作用データセット
- Authors: Yuanhe Guo, Linxi Xie, Zhuoran Chen, Kangrui Yu, Ryan Po, Guandao Yang, Gordon Wetztein, Hongyi Wen,
- Abstract要約: ImageGemは、きめ細かい個々の好みを理解する生成モデルを研究するためのデータセットである。
われわれのデータセットには57Kユーザによる実世界のインタラクションデータが含まれており、242KのカスタマイズされたLoRA、3Mのテキストプロンプト、5Mの生成された画像がまとめられている。
- 参考スコア(独自算出の注目度): 11.7261367003714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ImageGem, a dataset for studying generative models that understand fine-grained individual preferences. We posit that a key challenge hindering the development of such a generative model is the lack of in-the-wild and fine-grained user preference annotations. Our dataset features real-world interaction data from 57K users, who collectively have built 242K customized LoRAs, written 3M text prompts, and created 5M generated images. With user preference annotations from our dataset, we were able to train better preference alignment models. In addition, leveraging individual user preference, we investigated the performance of retrieval models and a vision-language model on personalized image retrieval and generative model recommendation. Finally, we propose an end-to-end framework for editing customized diffusion models in a latent weight space to align with individual user preferences. Our results demonstrate that the ImageGem dataset enables, for the first time, a new paradigm for generative model personalization.
- Abstract(参考訳): 本稿では,個々の好みを詳細に理解した生成モデルを構築するためのデータセットであるImageGemを紹介する。
このような生成モデルの開発を妨げる重要な課題は、内在的かつきめ細かいユーザ嗜好アノテーションの欠如にあると仮定する。
われわれのデータセットには57Kユーザによる実世界のインタラクションデータが含まれており、242KのカスタマイズされたLoRA、3Mのテキストプロンプト、5Mの生成された画像がまとめられている。
データセットからのユーザの好みのアノテーションによって、より優れた好みのアライメントモデルをトレーニングすることが可能になりました。
さらに,個人の好みを活かした検索モデルと視覚言語モデルの性能を,パーソナライズされた画像検索と生成モデルレコメンデーションに基づいて検討した。
最後に、各ユーザの好みに合わせて、遅延重み空間でカスタマイズされた拡散モデルを編集するエンドツーエンドフレームワークを提案する。
その結果、ImageGemデータセットは、生成モデルパーソナライズのための新しいパラダイムを初めて実現できた。
関連論文リスト
- Anyprefer: An Agentic Framework for Preference Data Synthesis [62.3856754548222]
ターゲットモデルを調整するための高品質な嗜好データを合成するフレームワークであるAnypreferを提案する。
審査員モデルの応答を正確に評価するために、外部ツールが導入される。
合成されたデータは、58Kの高品質な選好ペアからなる新しい選好データセットであるAnyprefer-V1にコンパイルされる。
論文 参考訳(メタデータ) (2025-04-27T15:21:59Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - You Only Submit One Image to Find the Most Suitable Generative Model [48.67303250592189]
我々は生成モデル同定(GMI)と呼ばれる新しい設定を提案する。
GMIは、ユーザの要求に対して最も適切な生成モデルを効率的に特定できるようにすることを目的としている。
論文 参考訳(メタデータ) (2024-12-16T14:46:57Z) - Preference Adaptive and Sequential Text-to-Image Generation [24.787970969428976]
我々は、大規模なオープンソース(非シーケンシャル)データセットとともに、シーケンシャルな選好の新たなデータセットを作成します。
EM戦略を用いてユーザ嗜好モデルとユーザ選択モデルを構築し,様々なユーザ嗜好タイプを同定する。
次に,大規模マルチモーダル言語モデル (LMM) と値に基づくRLアプローチを用いて,ユーザへの迅速な拡張の適応的かつ多様なスレートを提案する。
PASTA(Preference Adaptive and Sequential Text-to-image Agent)は、適応的マルチターン機能を備えたT2Iモデルを拡張し、協調的共同創造を促進し、不確実性や不特定性に対処する。
論文 参考訳(メタデータ) (2024-12-10T01:47:40Z) - MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。
MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文 参考訳(メタデータ) (2024-10-23T07:56:48Z) - ViPer: Visual Personalization of Generative Models via Individual Preference Learning [11.909247529297678]
本稿では,画像生成プロセスのパーソナライズを,ユーザの汎用的な嗜好を1回に分けて行うことを提案する。
これらのコメントに基づいて、ユーザの構造化された好き嫌いや視覚的属性を推測する。
これらの属性は、個々のユーザの視覚的嗜好に合わせて調整された画像を生成するために、テキスト・ツー・イメージ・モデルを導くために使用される。
論文 参考訳(メタデータ) (2024-07-24T15:42:34Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。