論文の概要: Automated Prompt Generation for Creative and Counterfactual Text-to-image Synthesis
- arxiv url: http://arxiv.org/abs/2509.21375v1
- Date: Tue, 23 Sep 2025 07:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.88326
- Title: Automated Prompt Generation for Creative and Counterfactual Text-to-image Synthesis
- Title(参考訳): 創造的・対物的テキスト・画像合成のための自動プロンプト生成
- Authors: Aleksa Jelaca, Ying Jiao, Chang Tian, Marie-Francine Moens,
- Abstract要約: 本稿では,ベースプロンプトを修正プロンプトに適応させる自動プロンプトエンジニアリングフレームワークを提案する。
本フレームワークは、画像生成を成功させることでデータセット構築を誘導する画像評価装置と、修正プロンプトを生成する教師付きプロンプトリライターと、最適な修正プロンプトを選択するDPO訓練されたローダとを含む。
我々は,最初の対物サイズテキスト画像データセットを構築し,画像評価装置を改良したGrounded SAMを拡張し,背骨の14%の改善を実現した。
- 参考スコア(独自算出の注目度): 25.268342045182376
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image generation has advanced rapidly with large-scale multimodal training, yet fine-grained controllability remains a critical challenge. Counterfactual controllability, defined as the capacity to deliberately generate images that contradict common-sense patterns, remains a major challenge but plays a crucial role in enabling creativity and exploratory applications. In this work, we address this gap with a focus on counterfactual size (e.g., generating a tiny walrus beside a giant button) and propose an automatic prompt engineering framework that adapts base prompts into revised prompts for counterfactual images. The framework comprises three components: an image evaluator that guides dataset construction by identifying successful image generations, a supervised prompt rewriter that produces revised prompts, and a DPO-trained ranker that selects the optimal revised prompt. We construct the first counterfactual size text-image dataset and enhance the image evaluator by extending Grounded SAM with refinements, achieving a 114 percent improvement over its backbone. Experiments demonstrate that our method outperforms state-of-the-art baselines and ChatGPT-4o, establishing a foundation for future research on counterfactual controllability.
- Abstract(参考訳): テキスト・ツー・イメージ生成は、大規模なマルチモーダルトレーニングによって急速に進歩しているが、きめ細かい制御性は依然として重要な課題である。
常識的パターンに矛盾するイメージを意図的に生成する能力として定義される対物的制御性は、依然として大きな課題だが、創造性と探索的応用を可能にする上で重要な役割を担っている。
本研究では,このギャップを,デファクトサイズ(例えば,巨大なボタンの横に小さなワロスを発生させる)に着目し,デファクト画像の修正プロンプトにベースプロンプトを適応させる自動プロンプトエンジニアリングフレームワークを提案する。
本フレームワークは、画像生成を成功させることでデータセット構築を誘導する画像評価装置と、修正プロンプトを生成する教師付きプロンプトリライターと、最適な修正プロンプトを選択するDPO訓練されたローダとを含む。
我々は,最初の対物サイズテキスト画像データセットを構築し,画像評価装置を改良したGrounded SAMを拡張し,背骨の14%の改善を実現した。
実験の結果,本手法は最先端のベースラインやChatGPT-4oよりも優れており,今後の研究の基盤となる。
関連論文リスト
- ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - Scale Your Instructions: Enhance the Instruction-Following Fidelity of Unified Image Generation Model by Self-Adaptive Attention Scaling [54.54513714247062]
OmniGenのような統合画像生成モデルの最近の進歩により、単一のフレームワーク内で多様な画像生成および編集タスクの処理が可能になった。
テキスト命令が複数のサブインストラクションを含む場合,テキスト命令の無視に悩まされることがわかった。
本稿では,サブインストラクション毎に注意力の活性化を動的にスケールするために,自己適応型注意スケーリングを提案する。
論文 参考訳(メタデータ) (2025-07-22T05:25:38Z) - ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。
制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。
このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文 参考訳(メタデータ) (2025-06-04T05:56:19Z) - Flux Already Knows -- Activating Subject-Driven Image Generation without Training [25.496237241889048]
バニラフラックスモデルを用いた画像生成のためのゼロショットフレームワークを提案する。
我々は、追加のデータ、トレーニング、推論時の微調整なしで強力なID保存機能を起動する。
論文 参考訳(メタデータ) (2025-04-12T20:41:53Z) - ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。
最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。
第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文 参考訳(メタデータ) (2025-03-13T08:43:24Z) - FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、トーケン毎のプロンプト重量を適応的に調整することに基づく、単純で効果的なアプローチである。
FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。
また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文 参考訳(メタデータ) (2024-08-21T15:30:35Z) - TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。
具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。
次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - DiffChat: Learning to Chat with Text-to-Image Synthesis Models for
Interactive Image Creation [40.478839423995296]
DiffChatは、対話型画像生成のための、インプット・アズ・インプット・テキスト・トゥ・イメージ合成(TIS)モデルと、大規模言語モデル(LLM)を"チャット"に整合させる新しい手法である。
生のプロンプト/イメージとユーザが指定した命令が与えられた場合、DiffChatは効果的に適切な修正を行い、ターゲットのプロンプトを生成する。
論文 参考訳(メタデータ) (2024-03-08T02:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。