論文の概要: GenPilot: A Multi-Agent System for Test-Time Prompt Optimization in Image Generation
- arxiv url: http://arxiv.org/abs/2510.07217v1
- Date: Wed, 08 Oct 2025 16:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.639768
- Title: GenPilot: A Multi-Agent System for Test-Time Prompt Optimization in Image Generation
- Title(参考訳): GenPilot: 画像生成におけるテスト時間プロンプト最適化のためのマルチエージェントシステム
- Authors: Wen Ye, Zhaocheng Liu, Yuwei Gui, Tingyu Yuan, Yunyue Su, Bowen Fang, Chaoyang Zhao, Qiang Liu, Liang Wang,
- Abstract要約: 本稿では,入力テキストを直接操作するテスト時間プロンプト最適化手法を提案する。
私たちのアプローチは、モデルに依存しず、解釈可能で、長く複雑なプロンプトを扱うのに適しています。
- 参考スコア(独自算出の注目度): 13.197958581564256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image synthesis has made remarkable progress, yet accurately interpreting complex and lengthy prompts remains challenging, often resulting in semantic inconsistencies and missing details. Existing solutions, such as fine-tuning, are model-specific and require training, while prior automatic prompt optimization (APO) approaches typically lack systematic error analysis and refinement strategies, resulting in limited reliability and effectiveness. Meanwhile, test-time scaling methods operate on fixed prompts and on noise or sample numbers, limiting their interpretability and adaptability. To solve these, we introduce a flexible and efficient test-time prompt optimization strategy that operates directly on the input text. We propose a plug-and-play multi-agent system called GenPilot, integrating error analysis, clustering-based adaptive exploration, fine-grained verification, and a memory module for iterative optimization. Our approach is model-agnostic, interpretable, and well-suited for handling long and complex prompts. Simultaneously, we summarize the common patterns of errors and the refinement strategy, offering more experience and encouraging further exploration. Experiments on DPG-bench and Geneval with improvements of up to 16.9% and 5.7% demonstrate the strong capability of our methods in enhancing the text and image consistency and structural coherence of generated images, revealing the effectiveness of our test-time prompt optimization strategy. The code is available at https://github.com/27yw/GenPilot.
- Abstract(参考訳): テキストと画像の合成は目覚ましい進歩を遂げているが、複雑で長いプロンプトを正確に解釈することは依然として困難であり、しばしば意味的な矛盾と詳細の欠如をもたらす。
ファインチューニング(英語版)のような既存のソリューションはモデル固有であり、トレーニングを必要とするが、以前の自動プロンプト最適化(APO)アプローチは通常、体系的なエラー解析と改善戦略を欠いているため、信頼性と有効性が制限される。
一方、テストタイムスケーリング手法は、固定されたプロンプトとノイズやサンプル番号で動作し、解釈可能性と適応性を制限する。
そこで本研究では,入力テキスト上で直接動作するフレキシブルかつ効率的なテスト時プロンプト最適化手法を提案する。
我々はGenPilotと呼ばれるプラグイン・アンド・プレイ型マルチエージェントシステムを提案し、エラー解析、クラスタリングに基づく適応探索、きめ細かい検証、反復最適化のためのメモリモジュールを統合した。
私たちのアプローチは、モデルに依存しず、解釈可能で、長く複雑なプロンプトを扱うのに適しています。
同時に、エラーの一般的なパターンと改善戦略を要約し、より多くの経験を提供し、さらなる探索を奨励します。
最大16.9%と5.7%の改善を施した DPG-bench と Geneval の実験は、生成した画像のテキストと画像の一貫性と構造的コヒーレンスを向上する上で、我々の手法の強みを示し、テスト時即時最適化戦略の有効性を明らかにした。
コードはhttps://github.com/27yw/GenPilot.comで公開されている。
関連論文リスト
- ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - Reward-Agnostic Prompt Optimization for Text-to-Image Diffusion Models [20.292872255460534]
RATTPOは,様々な報酬シナリオに適用可能なフレキシブルなテスト時間最適化手法である。
RATTPOは、報酬固有のタスク記述を必要とせずに、大きな言語モデル(LLM)のテキストをクエリすることで、最適化されたプロンプトを検索する。
経験的結果はRATTPOの汎用性を示し、多様な報酬設定のユーザプロンプトを効果的に強化する。
論文 参考訳(メタデータ) (2025-06-20T09:02:05Z) - Semantic-Preserving Adversarial Attacks on LLMs: An Adaptive Greedy Binary Search Approach [15.658579092368981]
大規模言語モデル(LLM)は、ユーザ入力を洗練させ、応答精度を向上させるために、グラフィカルユーザインタフェース(GUI)における自動プロンプト工学に依存している。
本稿では, セマンティック安定性を維持しつつ, 共通的なプロンプト最適化機構をシミュレートするアダプティブ・グレディ・バイナリ・サーチ(AGBS)手法を提案する。
論文 参考訳(メタデータ) (2025-05-26T15:41:06Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generationは、大規模な言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Multi-Agent Online Optimization with Delays: Asynchronicity, Adaptivity,
and Optimism [33.116006446428756]
遅延と非同期性を考慮したマルチエージェントオンライン学習問題の研究を行った。
エージェントレベルとネットワークレベルの両方で、最適な後悔の境界を持つ適応学習戦略を導き出します。
論文 参考訳(メタデータ) (2020-12-21T18:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。