論文の概要: Personalized and Sequential Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2412.10419v1
- Date: Tue, 10 Dec 2024 01:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:03:01.720459
- Title: Personalized and Sequential Text-to-Image Generation
- Title(参考訳): パーソナライズされた逐次テキスト・ツー・イメージ生成
- Authors: Ofir Nabati, Guy Tennenholtz, ChihWei Hsu, Moonkyung Ryu, Deepak Ramachandran, Yinlam Chow, Xiang Li, Craig Boutilier,
- Abstract要約: 我々は、大規模なオープンソース(非シーケンシャル)データセットとともに、シーケンシャルな選好の新たなデータセットを作成します。
EM戦略を用いてユーザ嗜好モデルとユーザ選択モデルを構築し,様々なユーザ嗜好タイプを同定する。
次に、大きなマルチモーダル言語モデル(LMM)と価値に基づくRLアプローチを活用し、ユーザに対してパーソナライズされ多様な拡張のスレートを提案する。
- 参考スコア(独自算出の注目度): 24.787970969428976
- License:
- Abstract: We address the problem of personalized, interactive text-to-image (T2I) generation, designing a reinforcement learning (RL) agent which iteratively improves a set of generated images for a user through a sequence of prompt expansions. Using human raters, we create a novel dataset of sequential preferences, which we leverage, together with large-scale open-source (non-sequential) datasets. We construct user-preference and user-choice models using an EM strategy and identify varying user preference types. We then leverage a large multimodal language model (LMM) and a value-based RL approach to suggest a personalized and diverse slate of prompt expansions to the user. Our Personalized And Sequential Text-to-image Agent (PASTA) extends T2I models with personalized multi-turn capabilities, fostering collaborative co-creation and addressing uncertainty or underspecification in a user's intent. We evaluate PASTA using human raters, showing significant improvement compared to baseline methods. We also release our sequential rater dataset and simulated user-rater interactions to support future research in personalized, multi-turn T2I generation.
- Abstract(参考訳): 本稿では,ユーザが生成した画像の集合を即時展開によって反復的に改善する強化学習(RL)エージェントを設計し,個人化された対話型テキスト・ツー・イメージ(T2I)生成の問題に対処する。
人間のレーダを使用して、大規模なオープンソース(非シーケンシャル)データセットとともに、シーケンシャルな選好の新たなデータセットを作成します。
EM戦略を用いてユーザ嗜好モデルとユーザ選択モデルを構築し,様々なユーザ嗜好タイプを同定する。
次に、大きなマルチモーダル言語モデル(LMM)と価値に基づくRLアプローチを活用し、ユーザに対してパーソナライズされ多様な拡張のスレートを提案する。
我々のPASTA(Personalized And Sequential Text-to-image Agent)は、T2Iモデルをパーソナライズされたマルチターン機能で拡張し、協調的な共同創造を促進し、ユーザの意図における不確実性や不特定性に対処する。
我々は,PASTAをヒトラッカーを用いて評価し,ベースライン法と比較して有意に改善した。
また、パーソナライズされたマルチターンT2I生成における今後の研究を支援するために、シーケンシャルなレーダデータセットとユーザ-レータインタラクションをシミュレートした。
関連論文リスト
- Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - PEFT-U: Parameter-Efficient Fine-Tuning for User Personalization [9.594958534074074]
ユーザパーソナライズのためのNLPモデルの構築と評価のための新しいデータセットであるPEFT-Uベンチマークを紹介する。
多様なユーザ中心タスクのコンテキストにおいて、LLMを効率よくパーソナライズし、ユーザ固有の嗜好に適合させるという課題について検討する。
論文 参考訳(メタデータ) (2024-07-25T14:36:18Z) - Doing Personal LAPS: LLM-Augmented Dialogue Construction for Personalized Multi-Session Conversational Search [9.243535345193711]
提案手法は,大規模言語モデルを用いて,個人化された対話を生成するために,一人の人間労働者を誘導する。
LAPSは大規模、人書き、マルチセッション、マルチドメインの会話を収集できる。
その結果,抽出された嗜好を用いて明示的に生成した応答は,ユーザの実際の嗜好と一致していることがわかった。
論文 参考訳(メタデータ) (2024-05-06T13:53:03Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - PMG : Personalized Multimodal Generation with Large Language Models [20.778869086174137]
本稿では,大規模言語モデル(LLM)を用いたパーソナライズされたマルチモーダル生成手法を提案する。
2つのデータセットに関する広範な実験を通じて、その応用を実証し、その性能を検証する。
PMGのパーソナライゼーションはLPIPSで最大8%向上し, 生成精度は向上した。
論文 参考訳(メタデータ) (2024-04-07T03:05:57Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z) - User-Aware Prefix-Tuning is a Good Learner for Personalized Image
Captioning [35.211749514733846]
従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。
既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。
本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:08:00Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Modeling Dynamic User Preference via Dictionary Learning for Sequential
Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。
浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。
本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文 参考訳(メタデータ) (2022-04-02T03:23:46Z) - Sequence Adaptation via Reinforcement Learning in Recommender Systems [8.909115457491522]
そこで我々は,SARモデルを提案する。SARモデルは,ユーザとイテムの相互作用のシーケンス長をパーソナライズされた方法で調整する。
さらに,逐次レコメンデーションの精度を批評家ネットワークの予測累積報酬と整合させるために,共同損失関数を最適化する。
実世界の4つのデータセットに対する実験的な評価は,提案モデルがいくつかのベースラインアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-31T13:56:46Z) - Examination and Extension of Strategies for Improving Personalized
Language Modeling via Interpolation [59.35932511895986]
我々は,グローバルLSTMベースのオーサリングモデルをユーザ個人化n-gramモデルで補間することにより,ユーザレベルでのオフラインメトリクスの改善を示す。
利用者の80%以上がパープレキシティのリフトを受けており、ユーザー当たり平均5.2%がパープレキシティのリフトを受け取っている。
論文 参考訳(メタデータ) (2020-06-09T19:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。