論文の概要: TDRI: Two-Phase Dialogue Refinement and Co-Adaptation for Interactive Image Generation
- arxiv url: http://arxiv.org/abs/2503.17669v1
- Date: Sat, 22 Mar 2025 06:40:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 16:32:16.758234
- Title: TDRI: Two-Phase Dialogue Refinement and Co-Adaptation for Interactive Image Generation
- Title(参考訳): TDRI:対話型画像生成のための2相対話リファインメントと共適応
- Authors: Yuheng Feng, Jianhui Wang, Kun Li, Sida Li, Tianyu Shi, Haoyue Han, Miao Zhang, Xueqian Wang,
- Abstract要約: I.I. (Two-Phase Dialogue Refinement and Co-Adaptation) は,反復的ユーザインタラクションによる画像生成の強化による課題に対処する。
ユーザプロンプトに基づいてベースイメージを生成する初期生成フェーズと、3つの主要なモジュールを通じてユーザフィードバックを統合するインタラクティブリファインメントフェーズの2つのフェーズで構成されている。
I.I.は、クリエイティブおよび産業分野における幅広い応用の強い可能性を示している。
- 参考スコア(独自算出の注目度): 19.229851510402952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although text-to-image generation technologies have made significant advancements, they still face challenges when dealing with ambiguous prompts and aligning outputs with user intent.Our proposed framework, TDRI (Two-Phase Dialogue Refinement and Co-Adaptation), addresses these issues by enhancing image generation through iterative user interaction. It consists of two phases: the Initial Generation Phase, which creates base images based on user prompts, and the Interactive Refinement Phase, which integrates user feedback through three key modules. The Dialogue-to-Prompt (D2P) module ensures that user feedback is effectively transformed into actionable prompts, which improves the alignment between user intent and model input. By evaluating generated outputs against user expectations, the Feedback-Reflection (FR) module identifies discrepancies and facilitates improvements. In an effort to ensure consistently high-quality results, the Adaptive Optimization (AO) module fine-tunes the generation process by balancing user preferences and maintaining prompt fidelity. Experimental results show that TDRI outperforms existing methods by achieving 33.6% human preference, compared to 6.2% for GPT-4 augmentation, and the highest CLIP and BLIP alignment scores (0.338 and 0.336, respectively). In iterative feedback tasks, user satisfaction increased to 88% after 8 rounds, with diminishing returns beyond 6 rounds. Furthermore, TDRI has been found to reduce the number of iterations and improve personalization in the creation of fashion products. TDRI exhibits a strong potential for a wide range of applications in the creative and industrial domains, as it streamlines the creative process and improves alignment with user preferences
- Abstract(参考訳): テキスト・画像生成技術は大きな進歩を遂げてきたが、不明瞭なプロンプトに対処し、出力をユーザ意図に合わせる際にはまだ課題に直面しており、提案するフレームワークであるTDRI(Two-Phase Dialogue Refinement and Co-Adaptation)は、反復的なユーザインタラクションを通じて画像生成を改善することでこれらの問題に対処する。
ユーザプロンプトに基づいてベースイメージを生成する初期生成フェーズと、3つの主要なモジュールを通じてユーザフィードバックを統合するインタラクティブリファインメントフェーズの2つのフェーズで構成されている。
Dialogue-to-Prompt (D2P)モジュールは、ユーザのフィードバックが効果的に実行可能なプロンプトに変換されることを保証する。
ユーザ期待に対して生成された出力を評価することで、フィードバック・リフレクション(FR)モジュールは相違点を特定し、改善を促進する。
常に高品質な結果を保証するために、Adaptive Optimization (AO)モジュールは、ユーザの好みをバランスさせ、迅速な忠実さを維持することによって、生成プロセスを微調整する。
実験の結果、TDRIは、GPT-4の6.2%、CLIPとBLIPのアライメントスコア(0.338と0.336)と比較して、従来の方法よりも33.6%向上していることがわかった。
反復的なフィードバックタスクでは、ユーザ満足度は8ラウンドの後に88%まで上昇し、リターンは6ラウンドを超えて低下した。
さらに、TDRIは、ファッション製品の創出において、反復回数を減らし、パーソナライズを改善することが知られている。
TDRIは、クリエイティブなプロセスの合理化とユーザの好みとの整合性の向上により、創造的および産業的領域における幅広い応用の可能性を示している。
関連論文リスト
- Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User [117.82681846559909]
会話レコメンデーションシステム(CRS)は、マルチターンインタラクションを使用してユーザの好みを捉え、パーソナライズされたレコメンデーションを提供する。
本稿では,CRSと自動インタラクションを行うための生成報酬モデルに基づくシミュレーションユーザGRSUを提案する。
論文 参考訳(メタデータ) (2025-04-29T06:37:30Z) - Optimizing Multi-Round Enhanced Training in Diffusion Models for Improved Preference Understanding [29.191627597682597]
本稿では,ユーザの好みに合わせた報酬モデルを活用し,フィードバックをループに組み込んだフレームワークを提案する。
このアプローチは、特にマルチターン対話シナリオにおいて、ユーザの満足度において競合するモデルを一貫して上回ります。
論文 参考訳(メタデータ) (2025-04-25T09:35:02Z) - Reasoning LLMs for User-Aware Multimodal Conversational Agents [3.533721662684487]
社会ロボティクスにおけるパーソナライゼーションは、効果的な人間とロボットの相互作用を促進するために重要である。
本稿では,ユーザ認識型対話エージェントのための新しいフレームワークUSER-LLM R1を提案する。
提案手法では,チェーン・オブ・シンク(CoT)推論モデルを統合し,ユーザの好みや視覚言語モデルを反復的に推測する。
論文 参考訳(メタデータ) (2025-04-02T13:00:17Z) - OMR-Diffusion:Optimizing Multi-Round Enhanced Training in Diffusion Models for Improved Intent Understanding [21.101906599201314]
ループ内フィードバックを組み込んだビジュアルコ適応フレームワークを提案する。
このフレームワークは拡散モデルを洗練するために複数の報酬関数(多様性、一貫性、嗜好フィードバックなど)を適用している。
実験では、DALL-E 3(463勝)など、人間の評価において508勝を達成した。
論文 参考訳(メタデータ) (2025-03-22T06:10:57Z) - Enhancing Intent Understanding for Ambiguous prompt: A Human-Machine Co-Adaption Strategy [20.954269395301885]
ユーザのプロンプトと修正中の画像の相互情報を用いた人間機械協調型適応戦略を提案する。
改良されたモデルにより、複数ラウンドの調整の必要性が軽減されることが判明した。
論文 参考訳(メタデータ) (2025-01-25T10:32:00Z) - What Do You Want? User-centric Prompt Generation for Text-to-image Synthesis via Multi-turn Guidance [23.411806572667707]
テキスト・ツー・イメージ合成(TIS)モデルは、テキスト・プロンプトの品質と特異性に大きく依存している。
既存のソリューションは、ユーザクエリから自動モデル優先のプロンプト生成を通じてこれを緩和する。
ユーザ中心性を重視したマルチターン対話型TISプロンプト生成モデルであるDialPromptを提案する。
論文 参考訳(メタデータ) (2024-08-23T08:35:35Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-03-27T23:45:31Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - Joint Turn and Dialogue level User Satisfaction Estimation on
Multi-Domain Conversations [6.129731338249762]
ターンレベルと対話レベルのユーザ満足度を推定する現在の自動化手法は手作りの機能を採用している。
適応型マルチタスク損失関数を最小化する新しいユーザ満足度推定手法を提案する。
BiLSTMベースのディープニューラルネットワークモデルは、推定された対話レベル評価に対する各ターンのコントリビューションを自動的に評価する。
論文 参考訳(メタデータ) (2020-10-06T05:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。