論文の概要: Proactive Agents for Multi-Turn Text-to-Image Generation Under Uncertainty
- arxiv url: http://arxiv.org/abs/2412.06771v1
- Date: Mon, 09 Dec 2024 18:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:47.298409
- Title: Proactive Agents for Multi-Turn Text-to-Image Generation Under Uncertainty
- Title(参考訳): 不確実性下における多軸テキスト・画像生成のためのプロアクティブエージェント
- Authors: Meera Hahn, Wenjun Zeng, Nithish Kannen, Rich Galt, Kartikeya Badola, Been Kim, Zi Wang,
- Abstract要約: そこで本研究では,不確かさを解消するためのインタフェースを備えたプロアクティブなT2Iエージェントの設計を提案する。
このようなエージェントの簡単なプロトタイプを作成し、人間の研究と自動評価の両方を通してその有効性を検証する。
我々は,これらのT2Iエージェントが,標準的なシングルターンT2I世代よりも少なくとも2倍高いVQAScoreのアライメントを達成するために,有意な質問をし,重要な情報を引き出すことができたことを観察した。
- 参考スコア(独自算出の注目度): 45.075328946207826
- License:
- Abstract: User prompts for generative AI models are often underspecified, leading to sub-optimal responses. This problem is particularly evident in text-to-image (T2I) generation, where users commonly struggle to articulate their precise intent. This disconnect between the user's vision and the model's interpretation often forces users to painstakingly and repeatedly refine their prompts. To address this, we propose a design for proactive T2I agents equipped with an interface to (1) actively ask clarification questions when uncertain, and (2) present their understanding of user intent as an understandable belief graph that a user can edit. We build simple prototypes for such agents and verify their effectiveness through both human studies and automated evaluation. We observed that at least 90% of human subjects found these agents and their belief graphs helpful for their T2I workflow. Moreover, we develop a scalable automated evaluation approach using two agents, one with a ground truth image and the other tries to ask as few questions as possible to align with the ground truth. On DesignBench, a benchmark we created for artists and designers, the COCO dataset (Lin et al., 2014), and ImageInWords (Garg et al., 2024), we observed that these T2I agents were able to ask informative questions and elicit crucial information to achieve successful alignment with at least 2 times higher VQAScore (Lin et al., 2024) than the standard single-turn T2I generation. Demo: https://github.com/google-deepmind/proactive_t2i_agents.
- Abstract(参考訳): 生成AIモデルのユーザプロンプトは、しばしば不特定であり、亜最適応答をもたらす。
この問題はテキスト・トゥ・イメージ(T2I)生成において特に顕著であり、ユーザーはよく自分の正確な意図を明確にするのに苦労する。
このユーザのビジョンとモデルの解釈の切り離しは、しばしばユーザーを苦悩させ、繰り返しプロンプトを洗練させる。
そこで本研究では,(1)不確実な場合の明確化を積極的に問うインターフェースを備えた,プロアクティブなT2Iエージェントの設計を提案し,(2)ユーザの意図に対する理解を,ユーザが編集できる理解可能な信念グラフとして提示する。
このようなエージェントの簡単なプロトタイプを作成し、人間の研究と自動評価の両方を通してその有効性を検証する。
我々は,少なくとも90%の被験者が,これらのエージェントとその信念グラフがT2Iワークフローに役立つことを観察した。
さらに,2つのエージェントを用いたスケーラブルな自動評価手法を開発した。
アーティストやデザイナーのためのベンチマークであるDesignBenchでは、COCOデータセット(Lin et al , 2014)とImageInWords(Garg et al , 2024)が、標準的なシングルターンT2I世代よりも少なくとも2倍高いVQAScore(Lin et al , 2024)のアライメントを達成するために、これらのT2Iエージェントが情報的質問をし、重要な情報を引き出すことができた。
デモ:https://github.com/google-deepmind/proactive_t2i_agents。
関連論文リスト
- ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting [18.002126814513417]
ChatGen-Evoは、モデルに不可欠な自動化スキルを徐々に装備する多段階進化戦略である。
ChatGen-Evoは様々なベースラインのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-26T07:31:12Z) - Text-to-Image Synthesis: A Decade Survey [7.250878248686215]
テキスト・ツー・イメージ合成(T2I)は、テキスト記述から高品質な画像を生成することに焦点を当てている。
本調査では,T2Iに関する最近の研究440件について概説する。
論文 参考訳(メタデータ) (2024-11-25T07:40:32Z) - Sketch2Code: Evaluating Vision-Language Models for Interactive Web Design Prototyping [55.98643055756135]
初歩的なスケッチのWebページプロトタイプへの変換を自動化する上で,最先端のビジョン言語モデル(VLM)を評価するベンチマークであるSketch2Codeを紹介した。
我々は、既存のVLMではSketch2Codeが困難であることを示す10の商用およびオープンソースモデルを分析した。
UI/UXの専門家によるユーザ調査では、受動的フィードバックの受信よりも、積極的に質問を行うのがかなり好まれている。
論文 参考訳(メタデータ) (2024-10-21T17:39:49Z) - DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model [90.71963723884944]
テキスト・ツー・イメージ(T2I)生成モデルは非常に注目され、学術研究の内外に広く応用されている。
DiffAgentは、APIコールを介して、正確な選択を秒単位でスクリーニングするように設計されたエージェントである。
評価の結果,DiffAgentは適切なT2I APIの同定に優れるだけでなく,SFTAトレーニングフレームワークの有効性も裏付けることがわかった。
論文 参考訳(メタデータ) (2024-03-31T06:28:15Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - Position: Towards Implicit Prompt For Text-To-Image Models [57.00716011456852]
本稿では,テキスト・トゥ・イメージ(T2I)モデルの現状を暗黙のプロンプトに向けて強調する。
我々は、ImplicitBenchというベンチマークを示し、暗黙のプロンプトのパフォーマンスと影響について調査する。
実験結果から,T2Iモデルは暗黙のプロンプトで示される様々なターゲットシンボルを正確に生成できることがわかった。
論文 参考訳(メタデータ) (2024-03-04T15:21:51Z) - Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation [19.06501699814924]
私たちは、暗黙的に敵対的なプロンプトをクラウドソーシングするための、レッドチーム方式であるAdversarial Nibbler Challengeを構築します。
この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。
人類が有害とみなす画像の14%は、機械によって「安全」と誤記されている。
論文 参考訳(メタデータ) (2024-02-14T22:21:12Z) - Automated Testing for Text-to-Image Software [0.0]
ACTestingは、T2I(text-to-image)ソフトウェアの自動クロスモーダルテスト手法である。
本稿では,ACTestingがエラー検出テストを生成することにより,ベースラインと比較してテキストイメージの一貫性を最大20%低減できることを示す。
その結果、ACTestingはT2Iソフトウェアの異常動作を効果的に識別できることがわかった。
論文 参考訳(メタデータ) (2023-12-20T11:19:23Z) - Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation [115.63085345822175]
本稿では,GPT-4V(ision)を用いたマルチモーダル反復自己修正システムであるIdean to Image'を紹介し,画像の自動設計と生成を行う。
大規模マルチモーダルモデル(LMM)に基づくシステムでは,類似のマルチモーダル自己抑止能力が得られるかを検討する。
論文 参考訳(メタデータ) (2023-10-12T17:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。