論文の概要: Optimizing Multi-Round Enhanced Training in Diffusion Models for Improved Preference Understanding
- arxiv url: http://arxiv.org/abs/2504.18204v1
- Date: Fri, 25 Apr 2025 09:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.718241
- Title: Optimizing Multi-Round Enhanced Training in Diffusion Models for Improved Preference Understanding
- Title(参考訳): 参照理解向上のための拡散モデルにおけるマルチトラック強化トレーニングの最適化
- Authors: Kun Li, Jianhui Wang, Yangfan He, Xinyuan Song, Ruoyu Wang, Hongyang He, Wenxin Zhang, Jiaqi Chen, Keqin Li, Sida Li, Miao Zhang, Tianyu Shi, Xueqian Wang,
- Abstract要約: 本稿では,ユーザの好みに合わせた報酬モデルを活用し,フィードバックをループに組み込んだフレームワークを提案する。
このアプローチは、特にマルチターン対話シナリオにおいて、ユーザの満足度において競合するモデルを一貫して上回ります。
- 参考スコア(独自算出の注目度): 29.191627597682597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI has significantly changed industries by enabling text-driven image generation, yet challenges remain in achieving high-resolution outputs that align with fine-grained user preferences. Consequently, multi-round interactions are necessary to ensure the generated images meet expectations. Previous methods enhanced prompts via reward feedback but did not optimize over a multi-round dialogue dataset. In this work, we present a Visual Co-Adaptation (VCA) framework incorporating human-in-the-loop feedback, leveraging a well-trained reward model aligned with human preferences. Using a diverse multi-turn dialogue dataset, our framework applies multiple reward functions, such as diversity, consistency, and preference feedback, while fine-tuning the diffusion model through LoRA, thus optimizing image generation based on user input. We also construct multi-round dialogue datasets of prompts and image pairs aligned with user intent. Experiments demonstrate that our method outperforms state-of-the-art baselines, significantly improving image consistency and alignment with user intent. Our approach consistently surpasses competing models in user satisfaction, especially in multi-turn dialogue scenarios.
- Abstract(参考訳): 生成AIは、テキスト駆動の画像生成を可能にすることで、業界を大きく変えてきたが、きめ細かいユーザの好みに合わせて高解像度の出力を達成することには、依然として課題が残っている。
したがって、生成した画像が期待に応えるためには、複数ラウンドのインタラクションが必要である。
従来の手法では、報酬フィードバックによってプロンプトが強化されていたが、複数ラウンドの対話データセットでは最適化されなかった。
本研究では,人間の好みに合わせた報酬モデルを利用して,フィードバックをループに組み込んだ視覚的適応(VCA)フレームワークを提案する。
多様なマルチターン対話データセットを用いて,多様性,一貫性,嗜好フィードバックなどの複数の報酬関数を適用し,LoRAによる拡散モデルの微調整を行い,ユーザ入力に基づく画像生成を最適化する。
また,ユーザ意図に沿ったプロンプトと画像ペアの多ラウンド対話データセットを構築した。
実験により,本手法は最先端のベースラインよりも優れ,画像の整合性やユーザ意図との整合性を大幅に向上することが示された。
このアプローチは、特にマルチターン対話シナリオにおいて、ユーザの満足度において競合するモデルを一貫して上回ります。
関連論文リスト
- OMR-Diffusion:Optimizing Multi-Round Enhanced Training in Diffusion Models for Improved Intent Understanding [21.101906599201314]
ループ内フィードバックを組み込んだビジュアルコ適応フレームワークを提案する。
このフレームワークは拡散モデルを洗練するために複数の報酬関数(多様性、一貫性、嗜好フィードバックなど)を適用している。
実験では、DALL-E 3(463勝)など、人間の評価において508勝を達成した。
論文 参考訳(メタデータ) (2025-03-22T06:10:57Z) - Unified Reward Model for Multimodal Understanding and Generation [32.22714522329413]
本稿では,マルチモーダル理解と生成評価のための最初の統一報酬モデルUnifiedRewardを提案する。
まず、構築した大規模人間の嗜好データセットに基づいてUnifiedRewardを開発し、画像生成/映像生成/理解タスクを含む。
論文 参考訳(メタデータ) (2025-03-07T08:36:05Z) - Enhancing Intent Understanding for Ambiguous prompt: A Human-Machine Co-Adaption Strategy [28.647935556492957]
ユーザのプロンプトと修正中の画像の相互情報を用いた人間機械協調型適応戦略を提案する。
改良されたモデルにより、複数ラウンドの調整の必要性が軽減されることが判明した。
論文 参考訳(メタデータ) (2025-01-25T10:32:00Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - LoRACLR: Contrastive Adaptation for Customization of Diffusion Models [62.70911549650579]
LoRACLRは、複数のLoRAモデルを単一の統一モデルにマージする、マルチコンセプト画像生成の新しいアプローチである。
LoRACLRは、これらのモデルの重み空間を整列し、マージするために対照的な目的を使い、干渉を最小限にしながら互換性を確保する。
本結果は,複数の概念を正確にマージし,パーソナライズされた画像生成能力を向上する上で,LoRACLRの有効性を強調した。
論文 参考訳(メタデータ) (2024-12-12T18:59:55Z) - MDAP: A Multi-view Disentangled and Adaptive Preference Learning Framework for Cross-Domain Recommendation [63.27390451208503]
クロスドメインレコメンデーションシステムは、マルチドメインユーザインタラクションを活用してパフォーマンスを向上させる。
マルチビュー・ディスタングル・アダプティブ・プライスラーニング・フレームワークを提案する。
当社のフレームワークはマルチビューエンコーダを使用して,多様なユーザの好みをキャプチャする。
論文 参考訳(メタデータ) (2024-10-08T10:06:45Z) - Reflective Human-Machine Co-adaptation for Enhanced Text-to-Image Generation Dialogue System [7.009995656535664]
我々はRHM-CASという,人間と機械の協調適応戦略を提案する。
外部では、Agentはユーザが生成した画像を反映して洗練するために、意味のある言語インタラクションに従事します。
内部的には、エージェントはユーザーの好みに基づいてポリシーを最適化し、最終的な結果がユーザの好みと密接に一致することを保証する。
論文 参考訳(メタデータ) (2024-08-27T18:08:00Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。