Fugu-MT 論文翻訳(概要): Enhancing Intent Understanding for Ambiguous Prompts through Human-Machine Co-Adaptation

論文の概要: Enhancing Intent Understanding for Ambiguous Prompts through Human-Machine Co-Adaptation

arxiv url: http://arxiv.org/abs/2501.15167v1
Date: Sat, 25 Jan 2025 10:32:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-28 21:57:03.549917
Title: Enhancing Intent Understanding for Ambiguous Prompts through Human-Machine Co-Adaptation
Title（参考訳）: 人間と機械の共適応による曖昧なプロンプトのインテント理解の促進
Authors: Yangfan He, Jianhui Wang, Kun Li, Yijin Wang, Li Sun, Jun Yin, Miao Zhang, Xueqian Wang,
Abstract要約: 本稿では,プロンプトを反復的に洗練し,生成した画像をユーザの好みに合わせて調整する新しいフレームワークであるVisual Co-Adaptation (VCA)を提案する。 VCAには、強化学習と多ターン対話による微調整言語モデルが採用されている。実験によると、VCAはDALL-E 3やStable Diffusionといったモデルを超え、対話ラウンドを4.3に減らし、CLIPスコアが0.92に、ユーザの満足度が4.73/5に向上した。
参考スコア（独自算出の注目度）: 22.551508477698988
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern image generation systems can produce high-quality visuals, yet user prompts often contain ambiguities, requiring multiple revisions. Existing methods struggle to address the nuanced needs of non-expert users. We propose Visual Co-Adaptation (VCA), a novel framework that iteratively refines prompts and aligns generated images with user preferences. VCA employs a fine-tuned language model with reinforcement learning and multi-turn dialogues for prompt disambiguation. Key components include the Incremental Context-Enhanced Dialogue Block for interactive clarification, the Semantic Exploration and Disambiguation Module (SESD) leveraging Retrieval-Augmented Generation (RAG) and CLIP scoring, and the Pixel Precision and Consistency Optimization Module (PPCO) for refining image details using Proximal Policy Optimization (PPO). A human-in-the-loop feedback mechanism further improves performance. Experiments show that VCA surpasses models like DALL-E 3 and Stable Diffusion, reducing dialogue rounds to 4.3, achieving a CLIP score of 0.92, and enhancing user satisfaction to 4.73/5. Additionally, we introduce a novel multi-round dialogue dataset with prompt-image pairs and user intent annotations.
Abstract（参考訳）: 現代の画像生成システムは高品質なビジュアルを生成できるが、ユーザプロンプトは曖昧さを多く含み、複数のリビジョンを必要とする。既存の手法は、非専門家のユーザのニーズに対処するのに苦労する。本稿では,プロンプトを反復的に洗練し,生成した画像をユーザの好みに合わせて調整する新しいフレームワークであるVisual Co-Adaptation (VCA)を提案する。 VCAには、強化学習と多ターン対話による微調整言語モデルが採用されている。主なコンポーネントは、インタラクティブな明確化のためのインクリメンタルコンテキスト拡張ダイアログブロック(Incremental Context-Enhanced Dialogue Block)、Retrieval-Augmented Generation (RAG)とCLIPスコアリングを活用したセマンティック探索・曖昧化モジュール(Semantic Exploration and Disambiguation Module, SESD)、PPO(Proximal Policy Optimization)を使用した画像詳細の精細化のためのPixel Precision and Consistency Optimization Module(PPCO)である。ヒューマン・イン・ザ・ループフィードバック機構により、さらに性能が向上する。実験によると、VCAはDALL-E 3やStable Diffusionといったモデルを超え、対話ラウンドを4.3に減らし、CLIPスコアが0.92に、ユーザの満足度が4.73/5に向上した。さらに,プロンプトイメージペアとユーザ意図アノテーションを備えた,新しい多ラウンド対話データセットを提案する。

関連論文リスト

VisualPrompter: Prompt Optimization with Visual Feedback for Text-to-Image Synthesis [15.392482488365955]
VisualPrompterはトレーニングフリーのプロンプトエンジニアリングフレームワークで、ユーザー入力をモデル優先の文に洗練する。本フレームワークは,テキスト画像アライメント評価のための複数のベンチマーク上で,最先端性能を実現する。
論文参考訳（メタデータ） (2025-06-29T08:24:39Z)
Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [55.42794740244581]
本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
論文参考訳（メタデータ） (2025-05-22T15:05:07Z)
Creating General User Models from Computer Use [62.91116265732001]
本稿では,コンピュータとのインタラクションを観察することでユーザについて学習する汎用ユーザモデル(GUM)のアーキテクチャを提案する。 GUMは、ユーザ(例えばデバイスのスクリーンショット)の非構造化観察を入力として受け取り、ユーザの知識と好みをキャプチャする信頼度重み付け命題を構築する。
論文参考訳（メタデータ） (2025-05-16T04:00:31Z)
Optimizing Multi-Round Enhanced Training in Diffusion Models for Improved Preference Understanding [29.191627597682597]
本稿では,ユーザの好みに合わせた報酬モデルを活用し,フィードバックをループに組み込んだフレームワークを提案する。このアプローチは、特にマルチターン対話シナリオにおいて、ユーザの満足度において競合するモデルを一貫して上回ります。
論文参考訳（メタデータ） (2025-04-25T09:35:02Z)
Personalized Image Generation with Large Multimodal Models [47.289887243367055]
そこで我々はPersonalized Image Generation Framework(PSH)を提案し,ユーザの視覚的嗜好やニーズをノイズの多いユーザ履歴やマルチモーダルな指示から捉える。パーソナライズされたステッカーとポスター生成にPigeonを応用し,様々な生成ベースラインよりも定量的な結果と人的評価が優れていることを示す。
論文参考訳（メタデータ） (2024-10-18T04:20:46Z)
Reflective Human-Machine Co-adaptation for Enhanced Text-to-Image Generation Dialogue System [7.009995656535664]
我々はRHM-CASという,人間と機械の協調適応戦略を提案する。外部では、Agentはユーザが生成した画像を反映して洗練するために、意味のある言語インタラクションに従事します。内部的には、エージェントはユーザーの好みに基づいてポリシーを最適化し、最終的な結果がユーザの好みと密接に一致することを保証する。
論文参考訳（メタデータ） (2024-08-27T18:08:00Z)
What Do You Want? User-centric Prompt Generation for Text-to-image Synthesis via Multi-turn Guidance [23.411806572667707]
テキスト・ツー・イメージ合成(TIS)モデルは、テキスト・プロンプトの品質と特異性に大きく依存している。既存のソリューションは、ユーザクエリから自動モデル優先のプロンプト生成を通じてこれを緩和する。ユーザ中心性を重視したマルチターン対話型TISプロンプト生成モデルであるDialPromptを提案する。
論文参考訳（メタデータ） (2024-08-23T08:35:35Z)
Retrieval Augmentation via User Interest Clustering [57.63883506013693]
インダストリアルレコメンデータシステムは、ユーザ・イテム・エンゲージメントのパターンに敏感である。本稿では,ユーザの関心を効率的に構築し,計算コストの低減を図る新しい手法を提案する。当社のアプローチはMetaの複数の製品に展開されており、ショートフォームビデオ関連の推奨を助長しています。
論文参考訳（メタデータ） (2024-08-07T16:35:10Z)
JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文参考訳（メタデータ） (2024-07-08T17:59:02Z)
Prompt Refinement with Image Pivot for Text-to-Image Generation [103.63292948223592]
テキスト・ツー・イメージ生成のための画像Pivot(PRIP)を用いたPrompt Refinementを提案する。 PRIPは精細化処理を2つのデータリッチなタスクに分解する。これは幅広いベースラインを著しく上回り、ゼロショット方式で見えないシステムに効果的に転送する。
論文参考訳（メタデータ） (2024-06-28T22:19:24Z)
Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文参考訳（メタデータ） (2024-06-13T00:33:29Z)
Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。 IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文参考訳（メタデータ） (2024-05-31T18:22:29Z)
User-Friendly Customized Generation with Multi-Modal Prompts [21.873076466803145]
本稿では,各カスタマイズ概念に合わせて,テキストと画像の新たな統合を提案する。カスタマイズされたテキスト・画像生成のためのパラダイムは,ユーザフレンドリーな既存のファインチューン・ベースの手法を超越している。
論文参考訳（メタデータ） (2024-05-26T09:34:16Z)
Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文参考訳（メタデータ） (2024-03-15T20:21:31Z)
Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。 ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-02-23T06:11:50Z)
DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文参考訳（メタデータ） (2024-01-02T07:40:12Z)
APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。 APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文参考訳（メタデータ） (2023-12-04T01:42:09Z)
Clarity ChatGPT: An Interactive and Adaptive Processing System for Image Restoration and Enhancement [97.41630939425731]
本稿では,ChatGPTの会話インテリジェンスと複数のIRE手法を組み合わせた変換システムを提案する。ケーススタディでは、Clarity ChatGPTがIREの一般化と相互作用能力を効果的に改善することを示した。
論文参考訳（メタデータ） (2023-11-20T11:51:13Z)
Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting [13.252755478909899]
本稿では,3115名のユーザから300万以上のプロンプトを収集した大規模テキスト画像データセットに基づいて,ユーザプロンプトを書き換える新たなアプローチを提案する。我々の書き換えモデルは、ユーザプロンプトの表現力とアライメントを意図した視覚的出力で向上させる。
論文参考訳（メタデータ） (2023-10-12T08:36:25Z)
CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。 CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文参考訳（メタデータ） (2022-10-19T08:06:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。