Fugu-MT 論文翻訳(概要): Twin Co-Adaptive Dialogue for Progressive Image Generation

論文の概要: Twin Co-Adaptive Dialogue for Progressive Image Generation

arxiv url: http://arxiv.org/abs/2504.14868v1
Date: Mon, 21 Apr 2025 05:37:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-29 19:32:57.289228
Title: Twin Co-Adaptive Dialogue for Progressive Image Generation
Title（参考訳）: 進行画像生成のための双対共適応対話
Authors: Jianhui Wang, Yangfan He, Yan Zhong, Xinyuan Song, Jiayi Su, Yuheng Feng, Hongyang He, Wenyu Zhu, Xinhang Yuan, Kuan Lu, Menghao Huo, Miao Zhang, Keqin Li, Jiaqi Chen, Tianyu Shi, Xueqian Wang,
Abstract要約: 我々は、画像生成を段階的に洗練するために、同期された共適応対話を利用するフレームワークであるTwin-Coを提案する。実験によると、Twin-Coは試行錯誤を減らすことによってユーザーエクスペリエンスを向上させるだけでなく、生成された画像の品質も向上する。
参考スコア（独自算出の注目度）: 26.175824150331987
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern text-to-image generation systems have enabled the creation of remarkably realistic and high-quality visuals, yet they often falter when handling the inherent ambiguities in user prompts. In this work, we present Twin-Co, a framework that leverages synchronized, co-adaptive dialogue to progressively refine image generation. Instead of a static generation process, Twin-Co employs a dynamic, iterative workflow where an intelligent dialogue agent continuously interacts with the user. Initially, a base image is generated from the user's prompt. Then, through a series of synchronized dialogue exchanges, the system adapts and optimizes the image according to evolving user feedback. The co-adaptive process allows the system to progressively narrow down ambiguities and better align with user intent. Experiments demonstrate that Twin-Co not only enhances user experience by reducing trial-and-error iterations but also improves the quality of the generated images, streamlining the creative process across various applications.
Abstract（参考訳）: 現代のテキスト・画像生成システムによって、驚くほどリアルで高品質なビジュアルが作成できるようになったが、ユーザプロンプトの本来の曖昧さに対処する際には、しばしば混乱する。本研究では,画像生成を段階的に洗練するために,同期化された協調適応対話を利用するフレームワークであるTwin-Coを紹介する。静的な生成プロセスの代わりに、Twin-Coは動的で反復的なワークフローを採用し、インテリジェントな対話エージェントがユーザと継続的に対話する。最初は、ユーザのプロンプトからベースイメージを生成する。そして、一連の対話交換を通じて、進化するユーザのフィードバックに応じて、画像を適応し、最適化する。協調適応プロセスにより、システムはあいまいさを徐々に狭め、ユーザの意図とより良く整合させることができる。実験によると、Twin-Coは試行錯誤のイテレーションを減らすことによってユーザエクスペリエンスを向上させるだけでなく、生成された画像の品質も向上し、さまざまなアプリケーションでクリエイティブなプロセスを合理化している。

関連論文リスト

VisualPrompter: Prompt Optimization with Visual Feedback for Text-to-Image Synthesis [15.392482488365955]
VisualPrompterはトレーニングフリーのプロンプトエンジニアリングフレームワークで、ユーザー入力をモデル優先の文に洗練する。本フレームワークは,テキスト画像アライメント評価のための複数のベンチマーク上で,最先端性能を実現する。
論文参考訳（メタデータ） (2025-06-29T08:24:39Z)
CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching [79.0241611035794]
CoVoMix2はゼロショットマルチトーカー対話生成のためのフレームワークである。フローマッチングに基づく生成モデルを用いて、マルチストリームの転写からメルスペクトルを予測する。提案手法は,MoonCastやSesameといった強力なベースラインを,音声品質,話者の整合性,推論速度で上回り,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-06-01T07:51:45Z)
AlignGen: Boosting Personalized Image Generation with Cross-Modality Prior Alignment [74.47138661595584]
我々は、パーソナライズされた画像生成のためのクロスモーダル優先アライメント機構であるAlignGenを提案する。 AlignGenは、既存のゼロショットメソッドよりも優れており、一般的なテスト時間最適化アプローチを超えています。
論文参考訳（メタデータ） (2025-05-28T02:57:55Z)
Optimizing Multi-Round Enhanced Training in Diffusion Models for Improved Preference Understanding [29.191627597682597]
本稿では,ユーザの好みに合わせた報酬モデルを活用し,フィードバックをループに組み込んだフレームワークを提案する。このアプローチは、特にマルチターン対話シナリオにおいて、ユーザの満足度において競合するモデルを一貫して上回ります。
論文参考訳（メタデータ） (2025-04-25T09:35:02Z)
Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。 T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
論文参考訳（メタデータ） (2025-01-26T19:01:19Z)
Enhancing Intent Understanding for Ambiguous prompt: A Human-Machine Co-Adaption Strategy [28.647935556492957]
ユーザのプロンプトと修正中の画像の相互情報を用いた人間機械協調型適応戦略を提案する。改良されたモデルにより、複数ラウンドの調整の必要性が軽減されることが判明した。
論文参考訳（メタデータ） (2025-01-25T10:32:00Z)
Reflective Human-Machine Co-adaptation for Enhanced Text-to-Image Generation Dialogue System [7.009995656535664]
我々はRHM-CASという,人間と機械の協調適応戦略を提案する。外部では、Agentはユーザが生成した画像を反映して洗練するために、意味のある言語インタラクションに従事します。内部的には、エージェントはユーザーの好みに基づいてポリシーを最適化し、最終的な結果がユーザの好みと密接に一致することを保証する。
論文参考訳（メタデータ） (2024-08-27T18:08:00Z)
Prompt Refinement with Image Pivot for Text-to-Image Generation [103.63292948223592]
テキスト・ツー・イメージ生成のための画像Pivot(PRIP)を用いたPrompt Refinementを提案する。 PRIPは精細化処理を2つのデータリッチなタスクに分解する。これは幅広いベースラインを著しく上回り、ゼロショット方式で見えないシステムに効果的に転送する。
論文参考訳（メタデータ） (2024-06-28T22:19:24Z)
Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文参考訳（メタデータ） (2024-02-05T18:42:34Z)
NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation [4.21512101973222]
NeuroPromptsは、テキスト・ツー・イメージモデルによって生成される世代の品質を改善するためのユーザのプロンプトを強化する適応的なフレームワークである。我々のフレームワークは,人間のプロンプトエンジニアが生成したようなプロンプトを生成するために,事前訓練された言語モデルを用いて制約付きテキストデコードを利用する。
論文参考訳（メタデータ） (2023-11-20T22:57:47Z)
Teaching Text-to-Image Models to Communicate in Dialog [44.76942024105259]
本稿では,イノベーティブな対話・画像生成タスクに焦点をあてる。この問題に対処するために、我々は最先端のテキスト・画像生成モデルのトップに調整された微調整アプローチを設計する。我々のアプローチは、3つの最先端の事前訓練されたテキスト-画像生成バックボーンで一貫した、そして顕著な改善をもたらす。
論文参考訳（メタデータ） (2023-09-27T09:33:16Z)
IR-GAN: Image Manipulation with Linguistic Instruction by Increment Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文参考訳（メタデータ） (2022-04-02T07:48:39Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。