論文の概要: Enhancing Intent Understanding for Ambiguous Prompts through Human-Machine Co-Adaptation
- arxiv url: http://arxiv.org/abs/2501.15167v1
- Date: Sat, 25 Jan 2025 10:32:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:56:41.346608
- Title: Enhancing Intent Understanding for Ambiguous Prompts through Human-Machine Co-Adaptation
- Title(参考訳): 人間と機械の共適応による曖昧なプロンプトのインテント理解の促進
- Authors: Yangfan He, Jianhui Wang, Kun Li, Yijin Wang, Li Sun, Jun Yin, Miao Zhang, Xueqian Wang,
- Abstract要約: 本稿では,プロンプトを反復的に洗練し,生成した画像をユーザの好みに合わせて調整する新しいフレームワークであるVisual Co-Adaptation (VCA)を提案する。
VCAには、強化学習と多ターン対話による微調整言語モデルが採用されている。
実験によると、VCAはDALL-E 3やStable Diffusionといったモデルを超え、対話ラウンドを4.3に減らし、CLIPスコアが0.92に、ユーザの満足度が4.73/5に向上した。
- 参考スコア(独自算出の注目度): 22.551508477698988
- License:
- Abstract: Modern image generation systems can produce high-quality visuals, yet user prompts often contain ambiguities, requiring multiple revisions. Existing methods struggle to address the nuanced needs of non-expert users. We propose Visual Co-Adaptation (VCA), a novel framework that iteratively refines prompts and aligns generated images with user preferences. VCA employs a fine-tuned language model with reinforcement learning and multi-turn dialogues for prompt disambiguation. Key components include the Incremental Context-Enhanced Dialogue Block for interactive clarification, the Semantic Exploration and Disambiguation Module (SESD) leveraging Retrieval-Augmented Generation (RAG) and CLIP scoring, and the Pixel Precision and Consistency Optimization Module (PPCO) for refining image details using Proximal Policy Optimization (PPO). A human-in-the-loop feedback mechanism further improves performance. Experiments show that VCA surpasses models like DALL-E 3 and Stable Diffusion, reducing dialogue rounds to 4.3, achieving a CLIP score of 0.92, and enhancing user satisfaction to 4.73/5. Additionally, we introduce a novel multi-round dialogue dataset with prompt-image pairs and user intent annotations.
- Abstract(参考訳): 現代の画像生成システムは高品質なビジュアルを生成できるが、ユーザプロンプトは曖昧さを多く含み、複数のリビジョンを必要とする。
既存の手法は、非専門家のユーザのニーズに対処するのに苦労する。
本稿では,プロンプトを反復的に洗練し,生成した画像をユーザの好みに合わせて調整する新しいフレームワークであるVisual Co-Adaptation (VCA)を提案する。
VCAには、強化学習と多ターン対話による微調整言語モデルが採用されている。
主なコンポーネントは、インタラクティブな明確化のためのインクリメンタルコンテキスト拡張ダイアログブロック(Incremental Context-Enhanced Dialogue Block)、Retrieval-Augmented Generation (RAG)とCLIPスコアリングを活用したセマンティック探索・曖昧化モジュール(Semantic Exploration and Disambiguation Module, SESD)、PPO(Proximal Policy Optimization)を使用した画像詳細の精細化のためのPixel Precision and Consistency Optimization Module(PPCO)である。
ヒューマン・イン・ザ・ループフィードバック機構により、さらに性能が向上する。
実験によると、VCAはDALL-E 3やStable Diffusionといったモデルを超え、対話ラウンドを4.3に減らし、CLIPスコアが0.92に、ユーザの満足度が4.73/5に向上した。
さらに,プロンプトイメージペアとユーザ意図アノテーションを備えた,新しい多ラウンド対話データセットを提案する。
関連論文リスト
- Personalized Image Generation with Large Multimodal Models [47.289887243367055]
そこで我々はPersonalized Image Generation Framework(PSH)を提案し,ユーザの視覚的嗜好やニーズをノイズの多いユーザ履歴やマルチモーダルな指示から捉える。
パーソナライズされたステッカーとポスター生成にPigeonを応用し,様々な生成ベースラインよりも定量的な結果と人的評価が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-18T04:20:46Z) - Reflective Human-Machine Co-adaptation for Enhanced Text-to-Image Generation Dialogue System [7.009995656535664]
我々はRHM-CASという,人間と機械の協調適応戦略を提案する。
外部では、Agentはユーザが生成した画像を反映して洗練するために、意味のある言語インタラクションに従事します。
内部的には、エージェントはユーザーの好みに基づいてポリシーを最適化し、最終的な結果がユーザの好みと密接に一致することを保証する。
論文 参考訳(メタデータ) (2024-08-27T18:08:00Z) - What Do You Want? User-centric Prompt Generation for Text-to-image Synthesis via Multi-turn Guidance [23.411806572667707]
テキスト・ツー・イメージ合成(TIS)モデルは、テキスト・プロンプトの品質と特異性に大きく依存している。
既存のソリューションは、ユーザクエリから自動モデル優先のプロンプト生成を通じてこれを緩和する。
ユーザ中心性を重視したマルチターン対話型TISプロンプト生成モデルであるDialPromptを提案する。
論文 参考訳(メタデータ) (2024-08-23T08:35:35Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Prompt Refinement with Image Pivot for Text-to-Image Generation [103.63292948223592]
テキスト・ツー・イメージ生成のための画像Pivot(PRIP)を用いたPrompt Refinementを提案する。
PRIPは精細化処理を2つのデータリッチなタスクに分解する。
これは幅広いベースラインを著しく上回り、ゼロショット方式で見えないシステムに効果的に転送する。
論文 参考訳(メタデータ) (2024-06-28T22:19:24Z) - Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。
IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。
本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文 参考訳(メタデータ) (2024-05-31T18:22:29Z) - User-Friendly Customized Generation with Multi-Modal Prompts [21.873076466803145]
本稿では,各カスタマイズ概念に合わせて,テキストと画像の新たな統合を提案する。
カスタマイズされたテキスト・画像生成のためのパラダイムは,ユーザフレンドリーな既存のファインチューン・ベースの手法を超越している。
論文 参考訳(メタデータ) (2024-05-26T09:34:16Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z) - Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting [13.252755478909899]
本稿では,3115名のユーザから300万以上のプロンプトを収集した大規模テキスト画像データセットに基づいて,ユーザプロンプトを書き換える新たなアプローチを提案する。
我々の書き換えモデルは、ユーザプロンプトの表現力とアライメントを意図した視覚的出力で向上させる。
論文 参考訳(メタデータ) (2023-10-12T08:36:25Z) - PromptMagician: Interactive Prompt Engineering for Text-to-Image
Creation [16.41459454076984]
本研究では,画像の検索結果を探索し,入力プロンプトを洗練させる視覚解析システムであるPromptMagicianを提案する。
システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連性の高い)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。
論文 参考訳(メタデータ) (2023-07-18T07:46:25Z) - CAISE: Conversational Agent for Image Search and Editing [109.57721903485663]
画像検索・編集のための自動会話エージェント(CAISE)のデータセットを提案する。
私たちの知る限り、これは対話型画像検索とアノテーションの編集を提供する最初のデータセットです。
アシスタントアノテーションがツールで実行する機能は実行可能なコマンドとして記録される。
論文 参考訳(メタデータ) (2022-02-24T00:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。