論文の概要: Enhancing Intent Understanding for Ambiguous Prompts through Human-Machine Co-Adaptation
- arxiv url: http://arxiv.org/abs/2501.15167v2
- Date: Sun, 16 Feb 2025 18:02:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:04:22.637190
- Title: Enhancing Intent Understanding for Ambiguous Prompts through Human-Machine Co-Adaptation
- Title(参考訳): 人間と機械の共適応による曖昧なプロンプトのインテント理解の促進
- Authors: Yangfan He, Jianhui Wang, Yijin Wang, Kun Li, Li Sun, Jiayi Su, Jingyuan Lu, Jinhua Song, Haoyuan Li, Sida Li, Tianyu Shi, Miao Zhang,
- Abstract要約: ユーザのプロンプトと修正中の画像の相互情報を用いた人間機械協調型適応戦略を提案する。
改良されたモデルにより、複数ラウンドの調整の必要性が軽減されることが判明した。
- 参考スコア(独自算出の注目度): 20.954269395301885
- License:
- Abstract: Today's image generation systems are capable of producing realistic and high-quality images. However, user prompts often contain ambiguities, making it difficult for these systems to interpret users' actual intentions. Consequently, many users must modify their prompts several times to ensure the generated images meet their expectations. While some methods focus on enhancing prompts to make the generated images fit user needs, the model is still hard to understand users' real needs, especially for non-expert users. In this research, we aim to enhance the visual parameter-tuning process, making the model user-friendly for individuals without specialized knowledge and better understand user needs. We propose a human-machine co-adaption strategy using mutual information between the user's prompts and the pictures under modification as the optimizing target to make the system better adapt to user needs. We find that an improved model can reduce the necessity for multiple rounds of adjustments. We also collect multi-round dialogue datasets with prompts and images pairs and user intent. Various experiments demonstrate the effectiveness of the proposed method in our proposed dataset. Our annotation tools and several examples of our dataset are available at https://zenodo.org/records/14876029 for easier review. And we will open source our full dataset and code.
- Abstract(参考訳): 今日の画像生成システムは、現実的で高品質な画像を生成することができる。
しかし,ユーザプロンプトには曖昧さが伴うことが多く,実際のユーザの意図を解釈することが困難である。
そのため、多くのユーザは、生成した画像が期待に合うように、プロンプトを何度も修正する必要がある。
いくつかの方法は、生成した画像がユーザのニーズに合うようにプロンプトを強化することに重点を置いているが、このモデルは、特にエキスパートでないユーザーにとって、ユーザの本当のニーズを理解するのはまだ困難である。
本研究では、視覚的パラメータ調整のプロセスを強化することを目的としており、専門知識のない個人に親しみやすいモデルを提供し、ユーザニーズをよりよく理解することを目的としている。
本稿では,ユーザのプロンプトと修正中の画像の相互情報を用いた人間と機械の協調的適応戦略を提案する。
改良されたモデルにより、複数ラウンドの調整の必要性が軽減されることが判明した。
複数ラウンドの対話データセットも収集し,プロンプトや画像のペア,ユーザ意図などを収集する。
提案手法の有効性を実験により検証した。
アノテーションツールとデータセットのサンプルはhttps://zenodo.org/records/14876029で公開されています。
そして、完全なデータセットとコードをオープンソースにします。
関連論文リスト
- Personalized Image Generation with Large Multimodal Models [47.289887243367055]
そこで我々はPersonalized Image Generation Framework(PSH)を提案し,ユーザの視覚的嗜好やニーズをノイズの多いユーザ履歴やマルチモーダルな指示から捉える。
パーソナライズされたステッカーとポスター生成にPigeonを応用し,様々な生成ベースラインよりも定量的な結果と人的評価が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-18T04:20:46Z) - Reflective Human-Machine Co-adaptation for Enhanced Text-to-Image Generation Dialogue System [7.009995656535664]
我々はRHM-CASという,人間と機械の協調適応戦略を提案する。
外部では、Agentはユーザが生成した画像を反映して洗練するために、意味のある言語インタラクションに従事します。
内部的には、エージェントはユーザーの好みに基づいてポリシーを最適化し、最終的な結果がユーザの好みと密接に一致することを保証する。
論文 参考訳(メタデータ) (2024-08-27T18:08:00Z) - What Do You Want? User-centric Prompt Generation for Text-to-image Synthesis via Multi-turn Guidance [23.411806572667707]
テキスト・ツー・イメージ合成(TIS)モデルは、テキスト・プロンプトの品質と特異性に大きく依存している。
既存のソリューションは、ユーザクエリから自動モデル優先のプロンプト生成を通じてこれを緩和する。
ユーザ中心性を重視したマルチターン対話型TISプロンプト生成モデルであるDialPromptを提案する。
論文 参考訳(メタデータ) (2024-08-23T08:35:35Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Prompt Refinement with Image Pivot for Text-to-Image Generation [103.63292948223592]
テキスト・ツー・イメージ生成のための画像Pivot(PRIP)を用いたPrompt Refinementを提案する。
PRIPは精細化処理を2つのデータリッチなタスクに分解する。
これは幅広いベースラインを著しく上回り、ゼロショット方式で見えないシステムに効果的に転送する。
論文 参考訳(メタデータ) (2024-06-28T22:19:24Z) - Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。
IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。
本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文 参考訳(メタデータ) (2024-05-31T18:22:29Z) - User-Friendly Customized Generation with Multi-Modal Prompts [21.873076466803145]
本稿では,各カスタマイズ概念に合わせて,テキストと画像の新たな統合を提案する。
カスタマイズされたテキスト・画像生成のためのパラダイムは,ユーザフレンドリーな既存のファインチューン・ベースの手法を超越している。
論文 参考訳(メタデータ) (2024-05-26T09:34:16Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z) - Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting [13.252755478909899]
本稿では,3115名のユーザから300万以上のプロンプトを収集した大規模テキスト画像データセットに基づいて,ユーザプロンプトを書き換える新たなアプローチを提案する。
我々の書き換えモデルは、ユーザプロンプトの表現力とアライメントを意図した視覚的出力で向上させる。
論文 参考訳(メタデータ) (2023-10-12T08:36:25Z) - PromptMagician: Interactive Prompt Engineering for Text-to-Image
Creation [16.41459454076984]
本研究では,画像の検索結果を探索し,入力プロンプトを洗練させる視覚解析システムであるPromptMagicianを提案する。
システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連性の高い)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。
論文 参考訳(メタデータ) (2023-07-18T07:46:25Z) - CAISE: Conversational Agent for Image Search and Editing [109.57721903485663]
画像検索・編集のための自動会話エージェント(CAISE)のデータセットを提案する。
私たちの知る限り、これは対話型画像検索とアノテーションの編集を提供する最初のデータセットです。
アシスタントアノテーションがツールで実行する機能は実行可能なコマンドとして記録される。
論文 参考訳(メタデータ) (2022-02-24T00:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。