論文の概要: Discrete Preference Learning for Personalized Multimodal Generation
- arxiv url: http://arxiv.org/abs/2604.20434v1
- Date: Wed, 22 Apr 2026 10:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.093741
- Title: Discrete Preference Learning for Personalized Multimodal Generation
- Title(参考訳): パーソナライズされたマルチモーダル生成のための離散選好学習
- Authors: Yuting Zhang, Ying Sun, Dazhong Shen, Ziwei Xie, Feng Liu, Changwang Zhang, Xiang Liu, Jun Wang, Hui Xiong,
- Abstract要約: パーソナライズド・マルチモーダル・ジェネレーション(DPPMG)のための離散選好学習というフレームワークを提案する。
最初の段階では、個別のモーダル特化選好を正確に学習するために、モーダル特化グラフニューラルネットワークを導入する。
第2段階では、個別のモード固有の選好トークンが下流のテキストや画像生成装置に注入される。
- 参考スコア(独自算出の注目度): 30.948146467300802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of generative models enables the creation of texts and images tailored to users' preferences. Existing personalized generative models have two critical limitations: lacking a dedicated paradigm for accurate preference modeling, and generating unimodal content despite real-world multimodal-driven user interactions. Therefore, we propose personalized multimodal generation, which captures modal-specific preferences via a dedicated preference model from multimodal interactions, and then feeds them into downstream generators for personalized multimodal content. However, this task presents two challenges: (1) Gap between continuous preferences from dedicated modeling and discrete token inputs intrinsic to generator architectures; (2) Potential inconsistency between generated images and texts. To tackle these, we present a two-stage framework called Discrete Preference learning for Personalized Multimodal Generation (DPPMG). In the first stage, to accurately learn discrete modal-specific preferences, we introduce a modal-specific graph neural network (a dedicated preference model) to learn users' modal-specific preferences, which preferences are then quantized into discrete preference tokens. In the second stage, the discrete modal-specific preference tokens are injected into downstream text and image generators. To further enhance cross-modal consistency while preserving personalization, we design a cross-modal consistent and personalized reward to fine-tune token-associated parameters. Extensive experiments on two real-world datasets demonstrate the effectiveness of our model in generating personalized and consistent multimodal content.
- Abstract(参考訳): 生成モデルの出現は、ユーザの好みに合わせたテキストや画像の作成を可能にする。
既存のパーソナライズされた生成モデルには、2つの重要な制限がある。
そこで,本研究では,マルチモーダルインタラクションから特定の嗜好モデルを用いてモーダル固有の嗜好をキャプチャし,それらを個別化されたマルチモーダルコンテンツのために下流ジェネレータに供給する,パーソナライズされたマルチモーダル生成を提案する。
しかし,本課題は,(1)専用モデリングからの連続的な嗜好と,ジェネレータアーキテクチャに固有の離散トークン入力とのギャップ,(2)生成した画像とテキスト間の潜在的な不整合,という2つの課題を提起する。
そこで我々はDPPMG(パーソナライズド・マルチモーダル・ジェネレーション)のための離散選好学習という2段階のフレームワークを提案する。
第1段階では、離散的なモーダル固有の嗜好を正確に学習するために、ユーザのモーダル固有の嗜好を学習するためのモーダル固有のグラフニューラルネットワーク(専用選好モデル)を導入し、その嗜好を離散選好トークンに量子化する。
第2段階では、個別のモード固有の選好トークンが下流のテキストや画像生成装置に注入される。
パーソナライゼーションを保ちながら、相互整合性をさらに向上するため、細管トークン関連パラメータに対する相互整合性とパーソナライズされた報酬を設計する。
2つの実世界のデータセットに対する大規模な実験は、パーソナライズされた一貫したマルチモーダルコンテンツを生成する上で、我々のモデルの有効性を示す。
関連論文リスト
- Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion [66.78268790956493]
オムニ・ディフュージョン(Omni-Diffusion)は、マスクベースの離散拡散モデルに基づいて構築された、最初の任意のマルチモーダル言語モデルである。
本手法は2つ以上のモダリティを処理する既存のマルチモーダルシステムに匹敵する性能または性能を示す。
論文 参考訳(メタデータ) (2026-03-06T18:59:57Z) - PrefGen: Multimodal Preference Learning for Preference-Conditioned Image Generation [44.638427866399205]
優先条件付き画像生成は、生成モデルを個々のユーザに適用し、与えられたプロンプトを超えて、個人の美的選択を反映したアウトプットを生成する。
マルチモーダルな大言語モデルを用いて、リッチなユーザ表現を抽出し、拡散に基づく画像生成に注入するフレームワークを提案する。
本手法は,画像品質と嗜好アライメントの両方において,強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-12-04T02:57:29Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Progressive Semantic Residual Quantization for Multimodal-Joint Interest Modeling in Music Recommendation [6.790539226766362]
本稿では,2段階の新たなマルチモーダルレコメンデーションフレームワークを提案する。
最初の段階では、モーダル固有およびモーダルジョイントのセマンティックIDを生成する。
第2段階では、ユーザのマルチモーダルな関心をモデル化するために、マルチコードブックのクロスアテンションネットワークが設計されている。
論文 参考訳(メタデータ) (2025-08-28T02:16:57Z) - Draw Your Mind: Personalized Generation via Condition-Level Modeling in Text-to-Image Diffusion Models [5.282669911393826]
本稿では,ユーザプロファイリングをトランスフォーマーベースのアダプタと統合し,パーソナライズ可能なDrUMを提案する。
DrUMは大規模なデータセットで強力なパフォーマンスを示し、オープンソースのテキストエンコーダとシームレスに統合する。
論文 参考訳(メタデータ) (2025-08-05T14:14:55Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou [23.818456863262494]
異なる下流モデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズするための定量的なマルチモーダルフレームワークを導入する。
ダウンストリームタスクの利用における2つの難題に着想を得て、異なるダウンストリームモデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズする定量的なマルチモーダルフレームワークを導入する。
論文 参考訳(メタデータ) (2024-11-18T17:08:35Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。