論文の概要: Personalized Image Generation with Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2410.14170v1
- Date: Fri, 18 Oct 2024 04:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 12:31:04.079064
- Title: Personalized Image Generation with Large Multimodal Models
- Title(参考訳): 大規模マルチモーダルモデルを用いたパーソナライズド画像生成
- Authors: Yiyan Xu, Wenjie Wang, Yang Zhang, Tang Biao, Peng Yan, Fuli Feng, Xiangnan He,
- Abstract要約: そこで我々はPersonalized Image Generation Framework(PSH)を提案し,ユーザの視覚的嗜好やニーズをノイズの多いユーザ履歴やマルチモーダルな指示から捉える。
パーソナライズされたステッカーとポスター生成にPigeonを応用し,様々な生成ベースラインよりも定量的な結果と人的評価が優れていることを示す。
- 参考スコア(独自算出の注目度): 47.289887243367055
- License:
- Abstract: Personalized content filtering, such as recommender systems, has become a critical infrastructure to alleviate information overload. However, these systems merely filter existing content and are constrained by its limited diversity, making it difficult to meet users' varied content needs. To address this limitation, personalized content generation has emerged as a promising direction with broad applications. Nevertheless, most existing research focuses on personalized text generation, with relatively little attention given to personalized image generation. The limited work in personalized image generation faces challenges in accurately capturing users' visual preferences and needs from noisy user-interacted images and complex multimodal instructions. Worse still, there is a lack of supervised data for training personalized image generation models. To overcome the challenges, we propose a Personalized Image Generation Framework named Pigeon, which adopts exceptional large multimodal models with three dedicated modules to capture users' visual preferences and needs from noisy user history and multimodal instructions. To alleviate the data scarcity, we introduce a two-stage preference alignment scheme, comprising masked preference reconstruction and pairwise preference alignment, to align Pigeon with the personalized image generation task. We apply Pigeon to personalized sticker and movie poster generation, where extensive quantitative results and human evaluation highlight its superiority over various generative baselines.
- Abstract(参考訳): 推薦システムのようなパーソナライズされたコンテンツフィルタリングは、情報の過負荷を軽減するための重要なインフラとなっている。
しかし、これらのシステムは単に既存のコンテンツをフィルタリングするだけであり、その多様性に制約されているため、ユーザの多様なコンテンツニーズを満たすことは困難である。
この制限に対処するため、パーソナライズされたコンテンツ生成は幅広いアプリケーションにおいて有望な方向として現れてきた。
しかしながら、既存の研究のほとんどはパーソナライズされたテキスト生成に焦点を当てており、パーソナライズされた画像生成には比較的注意が向けられていない。
パーソナライズされた画像生成における限られた作業は、ユーザの視覚的嗜好を正確に把握し、ノイズの多いユーザインタラクションの画像や複雑なマルチモーダル命令から要求される課題に直面している。
さらに悪いことに、パーソナライズされた画像生成モデルをトレーニングするための教師付きデータが不足している。
この課題を克服するために,Personalized Image Generation Framework(PSH)を提案する。これは,ユーザの視覚的嗜好やニーズをノイズの多いユーザ履歴やマルチモーダル命令から捉えるために,3つの専用モジュールを備えた,非常に大きなマルチモーダルモデルを採用する。
データ不足を軽減するために、マスク付き嗜好再構成とペアワイズ選好アライメントを含む2段階の選好アライメント方式を導入し、パーソナライズされた画像生成タスクにピジョンを合わせる。
パーソナライズされたステッカーとポスター生成にPigeonを応用し,様々な生成ベースラインよりも定量的な結果と人的評価が優れていることを示す。
関連論文リスト
- JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。
本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。
実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T17:45:22Z) - IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models [31.762112403595612]
IDAdapterは、単一の顔画像からパーソナライズされた画像生成における多様性とアイデンティティの保存を強化する、チューニング不要なアプローチである。
トレーニング期間中、特定のアイデンティティの複数の参照画像から混合した特徴を取り入れ、アイデンティティ関連コンテンツの詳細を充実させる。
論文 参考訳(メタデータ) (2024-03-20T12:13:04Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion
Models [19.519789922033034]
PhotoVerseは、テキストドメインと画像ドメインの両方にデュアルブランチ条件設定機構を組み込んだ革新的な方法論である。
1つのトレーニングフェーズの後、我々の手法は数秒で高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-11T19:59:43Z) - FastComposer: Tuning-Free Multi-Subject Image Generation with Localized
Attention [37.58569261714206]
拡散モデルは、特にパーソナライズされた画像に対する被写体駆動生成において、テキスト・画像生成時に優れている。
FastComposerは、微調整なしで、効率的でパーソナライズされたマルチオブジェクトのテキスト・ツー・イメージ生成を可能にする。
論文 参考訳(メタデータ) (2023-05-17T17:59:55Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z) - MyStyle: A Personalized Generative Prior [38.3436972491162]
MyStyleはパーソナライズされたディープジェネレーティブで、個人を数枚のショットで訓練する。
MyStyleは、特定の人の画像を再構成、拡張、編集することができる。
論文 参考訳(メタデータ) (2022-03-31T17:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。