論文の概要: Proactive Agents for Multi-Turn Text-to-Image Generation Under Uncertainty
- arxiv url: http://arxiv.org/abs/2412.06771v2
- Date: Wed, 16 Jul 2025 14:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 14:40:09.189656
- Title: Proactive Agents for Multi-Turn Text-to-Image Generation Under Uncertainty
- Title(参考訳): 不確実性下における多軸テキスト・画像生成のためのプロアクティブエージェント
- Authors: Meera Hahn, Wenjun Zeng, Nithish Kannen, Rich Galt, Kartikeya Badola, Been Kim, Zi Wang,
- Abstract要約: そこで本研究では,不確かさを解消するためのインタフェースを備えたプロアクティブなT2Iエージェントのプロトタイプを提案する。
このようなエージェントのシンプルなプロトタイプを構築し、スケーラブルで自動化された新しい評価手法を提案する。
3つの画像テキストデータセットを用いた実験は、提案されたT2Iエージェントが情報的質問をしたり、重要な情報を引き出す能力を示している。
- 参考スコア(独自算出の注目度): 45.075328946207826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User prompts for generative AI models are often underspecified, leading to a misalignment between the user intent and models' understanding. As a result, users commonly have to painstakingly refine their prompts. We study this alignment problem in text-to-image (T2I) generation and propose a prototype for proactive T2I agents equipped with an interface to (1) actively ask clarification questions when uncertain, and (2) present their uncertainty about user intent as an understandable and editable belief graph. We build simple prototypes for such agents and propose a new scalable and automated evaluation approach using two agents, one with a ground truth intent (an image) while the other tries to ask as few questions as possible to align with the ground truth. We experiment over three image-text datasets: ImageInWords (Garg et al., 2024), COCO (Lin et al., 2014) and DesignBench, a benchmark we curated with strong artistic and design elements. Experiments over the three datasets demonstrate the proposed T2I agents' ability to ask informative questions and elicit crucial information to achieve successful alignment with at least 2 times higher VQAScore (Lin et al., 2024) than the standard T2I generation. Moreover, we conducted human studies and observed that at least 90% of human subjects found these agents and their belief graphs helpful for their T2I workflow, highlighting the effectiveness of our approach. Code and DesignBench can be found at https://github.com/google-deepmind/proactive_t2i_agents.
- Abstract(参考訳): 生成AIモデルのユーザプロンプトは、しばしば過小評価され、ユーザの意図とモデルの理解の誤解につながる。
その結果、ユーザーは通常、自分のプロンプトを辛抱強く洗練させなければならない。
本稿では,テキスト・ツー・イメージ(T2I)生成におけるこのアライメント問題について検討し,(1)不確実性のある場合に積極的に明確化を問うインターフェースを備えたプロアクティブなT2Iエージェントのプロトタイプを提案し,(2)ユーザ意図に対する不確実性を,理解可能かつ編集可能な信念グラフとして提示する。
このようなエージェントのシンプルなプロトタイプを構築し、二つのエージェントを使って、新しいスケーラブルで自動化された評価手法を提案し、一方は、基礎的真理意図(画像)を持ち、他方は、基礎的真理に合わせるために、できるだけ少ない質問をしようとする。
ImageInWords (Garg et al , 2024), COCO (Lin et al , 2014), DesignBenchという3つの画像テキストデータセットについて実験を行った。
3つのデータセットに対する実験では、提案されたT2Iエージェントが、標準的なT2I世代よりも少なくとも2倍高いVQAScore(Lin et al , 2024)のアライメントを達成するために、情報的質問をし、重要な情報を引き出す能力を示した。
さらに, 被験者の少なくとも90%が, T2Iワークフローに有用なエージェントとその信念グラフを発見し, アプローチの有効性を強調した。
CodeとDesignBenchはhttps://github.com/google-deepmind/proactive_t2i_agentsで見ることができる。
関連論文リスト
- TIIF-Bench: How Does Your T2I Model Follow Your Instructions? [7.13169573900556]
本稿では, TIIF-Bench (Text-to-Image Instruction following Benchmark) を提案する。
TIIF-Benchは、複数の次元に沿って組織された5000のプロンプトから構成されており、難易度と複雑さの3つのレベルに分類される。
T2Iモデルのテキスト合成精度と美的コヒーレンスを評価するために,テキストレンダリングとスタイル制御という2つの重要な属性が導入された。
論文 参考訳(メタデータ) (2025-06-02T18:44:07Z) - IA-T2I: Internet-Augmented Text-to-Image Generation [13.765327654914199]
現在のテキスト・ツー・イメージ(T2I)生成モデルは有望な結果をもたらすが、テキスト・プロンプトに暗示される知識が不確実なシナリオでは失敗する。
本稿では,T2I モデルに参照画像を提供することで,そのような不確実な知識を明確化するための Internet-Augmented Text-to-image Generation (IA-T2I) フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T17:31:49Z) - Replace in Translation: Boost Concept Alignment in Counterfactual Text-to-Image [53.09546752700792]
我々は,この代替プロセスを明示論理ナラティブ・プロンプト (ELNP) と呼ぶ方法を提案する。
合成画像において,プロンプトに要求される概念を平均的にカバーできる数を計算するための計量を設計する。
大規模な実験と定性比較により、我々の戦略が反実的T2Iの概念の整合性を高めることが示される。
論文 参考訳(メタデータ) (2025-05-20T13:27:52Z) - Evaluating Hallucination in Text-to-Image Diffusion Models with Scene-Graph based Question-Answering Agent [9.748808189341526]
有効なテキスト・ツー・イメージ(T2I)評価指標は以下のとおりである: 生成された画像がテキストのプロンプトと一致しないインスタンスを検出する。
抽出したシーングラフを用いて質問応答を行うための大規模言語モデル (LLM) に基づく手法を提案し, 生成された画像に対する評価スコアを用いたデータセットを作成する。
論文 参考訳(メタデータ) (2024-12-07T18:44:38Z) - ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting [18.002126814513417]
ChatGen-Evoは、モデルに不可欠な自動化スキルを徐々に装備する多段階進化戦略である。
ChatGen-Evoは様々なベースラインのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-26T07:31:12Z) - Text-to-Image Synthesis: A Decade Survey [7.250878248686215]
テキスト・ツー・イメージ合成(T2I)は、テキスト記述から高品質な画像を生成することに焦点を当てている。
本調査では,T2Iに関する最近の研究440件について概説する。
論文 参考訳(メタデータ) (2024-11-25T07:40:32Z) - Sketch2Code: Evaluating Vision-Language Models for Interactive Web Design Prototyping [55.98643055756135]
初歩的なスケッチのWebページプロトタイプへの変換を自動化する上で,最先端のビジョン言語モデル(VLM)を評価するベンチマークであるSketch2Codeを紹介した。
我々は、既存のVLMではSketch2Codeが困難であることを示す10の商用およびオープンソースモデルを分析した。
UI/UXの専門家によるユーザ調査では、受動的フィードバックの受信よりも、積極的に質問を行うのがかなり好まれている。
論文 参考訳(メタデータ) (2024-10-21T17:39:49Z) - Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense? [97.0899853256201]
本稿では,実生活におけるコモンセンスと整合した画像を生成するためのテキスト・ツー・イメージ生成モデルの能力を評価するための新しいタスクとベンチマークを提案する。
我々は、T2Iモデルが、例えば「電球は無光である」と「電球は無光である」というようなイメージを生成できるかどうかを評価する。
さまざまな最先端(ソータ)のT2Iモデルをベンチマークした結果、画像合成と実写写真の間にはまだ大きなギャップがあることがわかった。
論文 参考訳(メタデータ) (2024-06-11T17:59:48Z) - DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model [90.71963723884944]
テキスト・ツー・イメージ(T2I)生成モデルは非常に注目され、学術研究の内外に広く応用されている。
DiffAgentは、APIコールを介して、正確な選択を秒単位でスクリーニングするように設計されたエージェントである。
評価の結果,DiffAgentは適切なT2I APIの同定に優れるだけでなく,SFTAトレーニングフレームワークの有効性も裏付けることがわかった。
論文 参考訳(メタデータ) (2024-03-31T06:28:15Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - Position: Towards Implicit Prompt For Text-To-Image Models [57.00716011456852]
本稿では,テキスト・トゥ・イメージ(T2I)モデルの現状を暗黙のプロンプトに向けて強調する。
我々は、ImplicitBenchというベンチマークを示し、暗黙のプロンプトのパフォーマンスと影響について調査する。
実験結果から,T2Iモデルは暗黙のプロンプトで示される様々なターゲットシンボルを正確に生成できることがわかった。
論文 参考訳(メタデータ) (2024-03-04T15:21:51Z) - Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation [19.06501699814924]
私たちは、暗黙的に敵対的なプロンプトをクラウドソーシングするための、レッドチーム方式であるAdversarial Nibbler Challengeを構築します。
この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。
人類が有害とみなす画像の14%は、機械によって「安全」と誤記されている。
論文 参考訳(メタデータ) (2024-02-14T22:21:12Z) - Automated Testing for Text-to-Image Software [0.0]
ACTestingは、T2I(text-to-image)ソフトウェアの自動クロスモーダルテスト手法である。
本稿では,ACTestingがエラー検出テストを生成することにより,ベースラインと比較してテキストイメージの一貫性を最大20%低減できることを示す。
その結果、ACTestingはT2Iソフトウェアの異常動作を効果的に識別できることがわかった。
論文 参考訳(メタデータ) (2023-12-20T11:19:23Z) - Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation [115.63085345822175]
本稿では,GPT-4V(ision)を用いたマルチモーダル反復自己修正システムであるIdean to Image'を紹介し,画像の自動設計と生成を行う。
大規模マルチモーダルモデル(LMM)に基づくシステムでは,類似のマルチモーダル自己抑止能力が得られるかを検討する。
論文 参考訳(メタデータ) (2023-10-12T17:34:20Z) - INSCIT: Information-Seeking Conversations with Mixed-Initiative
Interactions [47.90088587508672]
InSCItは、混合開始型インタラクションによる情報探索会話のためのデータセットである。
ユーザーエージェントは805対人会話から4.7Kである。
対話型知識認識とオープンドメイン質問応答の最先端モデルに基づく2つのシステムの結果を報告する。
論文 参考訳(メタデータ) (2022-07-02T06:18:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。