論文の概要: TDRI: Two-Phase Dialogue Refinement and Co-Adaptation for Interactive Image Generation
- arxiv url: http://arxiv.org/abs/2503.17669v1
- Date: Sat, 22 Mar 2025 06:40:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:54.038439
- Title: TDRI: Two-Phase Dialogue Refinement and Co-Adaptation for Interactive Image Generation
- Title(参考訳): TDRI:対話型画像生成のための2相対話リファインメントと共適応
- Authors: Yuheng Feng, Jianhui Wang, Kun Li, Sida Li, Tianyu Shi, Haoyue Han, Miao Zhang, Xueqian Wang,
- Abstract要約: I.I. (Two-Phase Dialogue Refinement and Co-Adaptation) は,反復的ユーザインタラクションによる画像生成の強化による課題に対処する。
ユーザプロンプトに基づいてベースイメージを生成する初期生成フェーズと、3つの主要なモジュールを通じてユーザフィードバックを統合するインタラクティブリファインメントフェーズの2つのフェーズで構成されている。
I.I.は、クリエイティブおよび産業分野における幅広い応用の強い可能性を示している。
- 参考スコア(独自算出の注目度): 19.229851510402952
- License:
- Abstract: Although text-to-image generation technologies have made significant advancements, they still face challenges when dealing with ambiguous prompts and aligning outputs with user intent.Our proposed framework, TDRI (Two-Phase Dialogue Refinement and Co-Adaptation), addresses these issues by enhancing image generation through iterative user interaction. It consists of two phases: the Initial Generation Phase, which creates base images based on user prompts, and the Interactive Refinement Phase, which integrates user feedback through three key modules. The Dialogue-to-Prompt (D2P) module ensures that user feedback is effectively transformed into actionable prompts, which improves the alignment between user intent and model input. By evaluating generated outputs against user expectations, the Feedback-Reflection (FR) module identifies discrepancies and facilitates improvements. In an effort to ensure consistently high-quality results, the Adaptive Optimization (AO) module fine-tunes the generation process by balancing user preferences and maintaining prompt fidelity. Experimental results show that TDRI outperforms existing methods by achieving 33.6% human preference, compared to 6.2% for GPT-4 augmentation, and the highest CLIP and BLIP alignment scores (0.338 and 0.336, respectively). In iterative feedback tasks, user satisfaction increased to 88% after 8 rounds, with diminishing returns beyond 6 rounds. Furthermore, TDRI has been found to reduce the number of iterations and improve personalization in the creation of fashion products. TDRI exhibits a strong potential for a wide range of applications in the creative and industrial domains, as it streamlines the creative process and improves alignment with user preferences
- Abstract(参考訳): テキスト・画像生成技術は大きな進歩を遂げてきたが、不明瞭なプロンプトに対処し、出力をユーザ意図に合わせる際にはまだ課題に直面しており、提案するフレームワークであるTDRI(Two-Phase Dialogue Refinement and Co-Adaptation)は、反復的なユーザインタラクションを通じて画像生成を改善することでこれらの問題に対処する。
ユーザプロンプトに基づいてベースイメージを生成する初期生成フェーズと、3つの主要なモジュールを通じてユーザフィードバックを統合するインタラクティブリファインメントフェーズの2つのフェーズで構成されている。
Dialogue-to-Prompt (D2P)モジュールは、ユーザのフィードバックが効果的に実行可能なプロンプトに変換されることを保証する。
ユーザ期待に対して生成された出力を評価することで、フィードバック・リフレクション(FR)モジュールは相違点を特定し、改善を促進する。
常に高品質な結果を保証するために、Adaptive Optimization (AO)モジュールは、ユーザの好みをバランスさせ、迅速な忠実さを維持することによって、生成プロセスを微調整する。
実験の結果、TDRIは、GPT-4の6.2%、CLIPとBLIPのアライメントスコア(0.338と0.336)と比較して、従来の方法よりも33.6%向上していることがわかった。
反復的なフィードバックタスクでは、ユーザ満足度は8ラウンドの後に88%まで上昇し、リターンは6ラウンドを超えて低下した。
さらに、TDRIは、ファッション製品の創出において、反復回数を減らし、パーソナライズを改善することが知られている。
TDRIは、クリエイティブなプロセスの合理化とユーザの好みとの整合性の向上により、創造的および産業的領域における幅広い応用の可能性を示している。
関連論文リスト
- Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Enhancing AI Assisted Writing with One-Shot Implicit Negative Feedback [6.175028561101999]
Niftyは、テキスト生成プロセスに暗黙のフィードバックを制御的に統合するために、分類器のガイダンスを使用するアプローチである。
また,ルージュ-Lでは最大で34%,正しい意図の生成では89%,人間評価では86%の勝利率を示した。
論文 参考訳(メタデータ) (2024-10-14T18:50:28Z) - What Do You Want? User-centric Prompt Generation for Text-to-image Synthesis via Multi-turn Guidance [23.411806572667707]
テキスト・ツー・イメージ合成(TIS)モデルは、テキスト・プロンプトの品質と特異性に大きく依存している。
既存のソリューションは、ユーザクエリから自動モデル優先のプロンプト生成を通じてこれを緩和する。
ユーザ中心性を重視したマルチターン対話型TISプロンプト生成モデルであるDialPromptを提案する。
論文 参考訳(メタデータ) (2024-08-23T08:35:35Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-03-27T23:45:31Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - Joint Turn and Dialogue level User Satisfaction Estimation on
Multi-Domain Conversations [6.129731338249762]
ターンレベルと対話レベルのユーザ満足度を推定する現在の自動化手法は手作りの機能を採用している。
適応型マルチタスク損失関数を最小化する新しいユーザ満足度推定手法を提案する。
BiLSTMベースのディープニューラルネットワークモデルは、推定された対話レベル評価に対する各ターンのコントリビューションを自動的に評価する。
論文 参考訳(メタデータ) (2020-10-06T05:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。