論文の概要: Enhancing Intent Understanding for Ambiguous Prompts through Human-Machine Co-Adaptation
- arxiv url: http://arxiv.org/abs/2501.15167v1
- Date: Sat, 25 Jan 2025 10:32:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:56:41.346608
- Title: Enhancing Intent Understanding for Ambiguous Prompts through Human-Machine Co-Adaptation
- Title(参考訳): 人間と機械の共適応による曖昧なプロンプトのインテント理解の促進
- Authors: Yangfan He, Jianhui Wang, Kun Li, Yijin Wang, Li Sun, Jun Yin, Miao Zhang, Xueqian Wang,
- Abstract要約: 本稿では,プロンプトを反復的に洗練し,生成した画像をユーザの好みに合わせて調整する新しいフレームワークであるVisual Co-Adaptation (VCA)を提案する。
VCAには、強化学習と多ターン対話による微調整言語モデルが採用されている。
実験によると、VCAはDALL-E 3やStable Diffusionといったモデルを超え、対話ラウンドを4.3に減らし、CLIPスコアが0.92に、ユーザの満足度が4.73/5に向上した。
- 参考スコア(独自算出の注目度): 22.551508477698988
- License:
- Abstract: Modern image generation systems can produce high-quality visuals, yet user prompts often contain ambiguities, requiring multiple revisions. Existing methods struggle to address the nuanced needs of non-expert users. We propose Visual Co-Adaptation (VCA), a novel framework that iteratively refines prompts and aligns generated images with user preferences. VCA employs a fine-tuned language model with reinforcement learning and multi-turn dialogues for prompt disambiguation. Key components include the Incremental Context-Enhanced Dialogue Block for interactive clarification, the Semantic Exploration and Disambiguation Module (SESD) leveraging Retrieval-Augmented Generation (RAG) and CLIP scoring, and the Pixel Precision and Consistency Optimization Module (PPCO) for refining image details using Proximal Policy Optimization (PPO). A human-in-the-loop feedback mechanism further improves performance. Experiments show that VCA surpasses models like DALL-E 3 and Stable Diffusion, reducing dialogue rounds to 4.3, achieving a CLIP score of 0.92, and enhancing user satisfaction to 4.73/5. Additionally, we introduce a novel multi-round dialogue dataset with prompt-image pairs and user intent annotations.
- Abstract(参考訳): 現代の画像生成システムは高品質なビジュアルを生成できるが、ユーザプロンプトは曖昧さを多く含み、複数のリビジョンを必要とする。
既存の手法は、非専門家のユーザのニーズに対処するのに苦労する。
本稿では,プロンプトを反復的に洗練し,生成した画像をユーザの好みに合わせて調整する新しいフレームワークであるVisual Co-Adaptation (VCA)を提案する。
VCAには、強化学習と多ターン対話による微調整言語モデルが採用されている。
主なコンポーネントは、インタラクティブな明確化のためのインクリメンタルコンテキスト拡張ダイアログブロック(Incremental Context-Enhanced Dialogue Block)、Retrieval-Augmented Generation (RAG)とCLIPスコアリングを活用したセマンティック探索・曖昧化モジュール(Semantic Exploration and Disambiguation Module, SESD)、PPO(Proximal Policy Optimization)を使用した画像詳細の精細化のためのPixel Precision and Consistency Optimization Module(PPCO)である。
ヒューマン・イン・ザ・ループフィードバック機構により、さらに性能が向上する。
実験によると、VCAはDALL-E 3やStable Diffusionといったモデルを超え、対話ラウンドを4.3に減らし、CLIPスコアが0.92に、ユーザの満足度が4.73/5に向上した。
さらに,プロンプトイメージペアとユーザ意図アノテーションを備えた,新しい多ラウンド対話データセットを提案する。
関連論文リスト
- Reflective Human-Machine Co-adaptation for Enhanced Text-to-Image Generation Dialogue System [7.009995656535664]
我々はRHM-CASという,人間と機械の協調適応戦略を提案する。
外部では、Agentはユーザが生成した画像を反映して洗練するために、意味のある言語インタラクションに従事します。
内部的には、エージェントはユーザーの好みに基づいてポリシーを最適化し、最終的な結果がユーザの好みと密接に一致することを保証する。
論文 参考訳(メタデータ) (2024-08-27T18:08:00Z) - What Do You Want? User-centric Prompt Generation for Text-to-image Synthesis via Multi-turn Guidance [23.411806572667707]
テキスト・ツー・イメージ合成(TIS)モデルは、テキスト・プロンプトの品質と特異性に大きく依存している。
既存のソリューションは、ユーザクエリから自動モデル優先のプロンプト生成を通じてこれを緩和する。
ユーザ中心性を重視したマルチターン対話型TISプロンプト生成モデルであるDialPromptを提案する。
論文 参考訳(メタデータ) (2024-08-23T08:35:35Z) - Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。
プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。
予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文 参考訳(メタデータ) (2024-06-13T00:33:29Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Clarity ChatGPT: An Interactive and Adaptive Processing System for Image
Restoration and Enhancement [97.41630939425731]
本稿では,ChatGPTの会話インテリジェンスと複数のIRE手法を組み合わせた変換システムを提案する。
ケーススタディでは、Clarity ChatGPTがIREの一般化と相互作用能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-20T11:51:13Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。