論文の概要: OMR-Diffusion:Optimizing Multi-Round Enhanced Training in Diffusion Models for Improved Intent Understanding
- arxiv url: http://arxiv.org/abs/2503.17660v1
- Date: Sat, 22 Mar 2025 06:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:55.314226
- Title: OMR-Diffusion:Optimizing Multi-Round Enhanced Training in Diffusion Models for Improved Intent Understanding
- Title(参考訳): OMR拡散:インテント理解向上のための拡散モデルにおけるマルチトラック強化トレーニングの最適化
- Authors: Kun Li, Jianhui Wang, Miao Zhang, Xueqian Wang,
- Abstract要約: ループ内フィードバックを組み込んだビジュアルコ適応フレームワークを提案する。
このフレームワークは拡散モデルを洗練するために複数の報酬関数(多様性、一貫性、嗜好フィードバックなど)を適用している。
実験では、DALL-E 3(463勝)など、人間の評価において508勝を達成した。
- 参考スコア(独自算出の注目度): 21.101906599201314
- License:
- Abstract: Generative AI has significantly advanced text-driven image generation, but it still faces challenges in producing outputs that consistently align with evolving user preferences and intents, particularly in multi-turn dialogue scenarios. In this research, We present a Visual Co-Adaptation (VCA) framework that incorporates human-in-the-loop feedback, utilizing a well-trained reward model specifically designed to closely align with human preferences. Using a diverse multi-turn dialogue dataset, the framework applies multiple reward functions (such as diversity, consistency, and preference feedback) to refine the diffusion model through LoRA, effectively optimizing image generation based on user input. We also constructed multi-round dialogue datasets with prompts and image pairs that well-fit user intent. Experiments show the model achieves 508 wins in human evaluation, outperforming DALL-E 3 (463 wins) and others. It also achieves 3.4 rounds in dialogue efficiency (vs. 13.7 for DALL-E 3) and excels in metrics like LPIPS (0.15) and BLIP (0.59). Various experiments demonstrate the effectiveness of the proposed method over state-of-the-art baselines, with significant improvements in image consistency and alignment with user intent.
- Abstract(参考訳): 生成AIは、テキスト駆動の画像生成が著しく進歩しているが、特にマルチターン対話シナリオにおいて、進化するユーザの好みや意図と一貫して一致したアウトプットを生成する上で、依然として課題に直面している。
本研究では,人間の嗜好と密接に整合するように設計された報奨モデルを用いて,ループ内フィードバックを組み込んだ視覚的適応(VCA)フレームワークを提案する。
多様なマルチターン対話データセットを用いて、このフレームワークは複数の報酬関数(多様性、一貫性、嗜好フィードバックなど)を適用して、LoRAを通じて拡散モデルを洗練し、ユーザ入力に基づいて画像生成を効果的に最適化する。
また,ユーザ意図に合ったプロンプトとイメージペアを備えた複数ラウンドの対話データセットを構築した。
実験では、DALL-E 3(463勝)など、人間の評価において508勝を達成した。
また、対話効率の3.4ラウンド(DALL-E3)も達成し、LPIPS (0.15) やBLIP (0.59) などの指標に優れる。
様々な実験により,提案手法が最先端のベースラインに対して有効であることを示すとともに,画像の整合性やユーザ意図との整合性が向上した。
関連論文リスト
- Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - MVReward: Better Aligning and Evaluating Multi-View Diffusion Models with Human Preferences [23.367079270965068]
人選好による多視点拡散モデルの改良と評価のための包括的フレームワークを提案する。
また,プラグアンドプレイ型多視点拡散チューニング戦略であるMulti-View Preference Learning (MVP)を提案する。
論文 参考訳(メタデータ) (2024-12-09T16:05:31Z) - MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。
MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文 参考訳(メタデータ) (2024-10-23T07:56:48Z) - Reflective Human-Machine Co-adaptation for Enhanced Text-to-Image Generation Dialogue System [7.009995656535664]
我々はRHM-CASという,人間と機械の協調適応戦略を提案する。
外部では、Agentはユーザが生成した画像を反映して洗練するために、意味のある言語インタラクションに従事します。
内部的には、エージェントはユーザーの好みに基づいてポリシーを最適化し、最終的な結果がユーザの好みと密接に一致することを保証する。
論文 参考訳(メタデータ) (2024-08-27T18:08:00Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。