論文の概要: VisionDirector: Vision-Language Guided Closed-Loop Refinement for Generative Image Synthesis
- arxiv url: http://arxiv.org/abs/2512.19243v2
- Date: Sun, 28 Dec 2025 04:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 13:10:31.50885
- Title: VisionDirector: Vision-Language Guided Closed-Loop Refinement for Generative Image Synthesis
- Title(参考訳): VisionDirector: 生成画像合成のための視覚言語ガイドクローズドループリファインメント
- Authors: Meng Chu, Senqiao Yang, Haoxuan Che, Suiyun Zhang, Xichen Zhang, Shaozuo Yu, Haokun Gui, Zhefan Rao, Dandan Tu, Rui Liu, Jiaya Jia,
- Abstract要約: LGBench(Long Goal Bench)は、2000タスクスイートで、18から22の密結合したゴールを含む平均的な命令である。
最先端モデルでさえ、目標の72%以下を満足しており、ローカライズされた編集をいつも見逃していることがわかった。
我々は、長い指示から構造化された目標を抽出する訓練不要の視覚言語スーパーバイザであるVisionDirectorを紹介する。
- 参考スコア(独自算出の注目度): 46.62928694701961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models can now produce photorealistic imagery, yet they still struggle with the long, multi-goal prompts that professional designers issue. To expose this gap and better evaluate models' performance in real-world settings, we introduce Long Goal Bench (LGBench), a 2,000-task suite (1,000 T2I and 1,000 I2I) whose average instruction contains 18 to 22 tightly coupled goals spanning global layout, local object placement, typography, and logo fidelity. We find that even state-of-the-art models satisfy fewer than 72 percent of the goals and routinely miss localized edits, confirming the brittleness of current pipelines. To address this, we present VisionDirector, a training-free vision-language supervisor that (i) extracts structured goals from long instructions, (ii) dynamically decides between one-shot generation and staged edits, (iii) runs micro-grid sampling with semantic verification and rollback after every edit, and (iv) logs goal-level rewards. We further fine-tune the planner with Group Relative Policy Optimization, yielding shorter edit trajectories (3.1 versus 4.2 steps) and stronger alignment. VisionDirector achieves new state of the art on GenEval (plus 7 percent overall) and ImgEdit (plus 0.07 absolute) while producing consistent qualitative improvements on typography, multi-object scenes, and pose editing.
- Abstract(参考訳): 生成モデルは今やフォトリアリスティックなイメージを生成できるが、プロのデザイナーが発行する長いマルチゴールのプロンプトに苦戦している。
このギャップを露呈し、実世界の環境でモデルの性能を評価するために、グローバルレイアウト、ローカルオブジェクト配置、タイポグラフィー、ロゴフィデリティにまたがる18から22の密結合目標を含む2000タスクスイート(1,000 T2Iと1,000 I2I)であるLong Goal Bench(LGBench)を紹介した。
最先端のモデルでさえ、目標の72%未満を満足しており、局所的な編集を定期的に見逃し、現在のパイプラインの脆さを確認しています。
これを解決するために、トレーニング不要の視覚言語スーパーバイザであるVisionDirectorを紹介する。
一 長い指示から構造化された目標を抽出すること。
(ii)ワンショット生成とステージ編集を動的に決定する。
(iii)編集毎にセマンティック検証とロールバックを伴うマイクログリッドサンプリングを実行し、
(4)ゴールレベルの報酬を記録する。
我々はさらに、グループ相対政策最適化(Group Relative Policy Optimization)でプランナーを微調整し、より短い編集軌跡(3.1対4.2ステップ)とより強力なアライメントを与える。
VisionDirectorはGenEval(全体の7%以上)とImgEdit(0.07以上)の新たな最先端を実現し、タイポグラフィ、マルチオブジェクトシーン、ポーズ編集の質的改善を実現している。
関連論文リスト
- Image-POSER: Reflective RL for Multi-Expert Image Generation and Editing [16.943575863059607]
Image-POSERは、事前訓練されたテキスト・ツー・イメージの専門家とイメージ・ツー・イメージの専門家の多様なレジストリをオーケストレーションする。
動的タスクの分解を通じて、エンドツーエンドのプロンプトを処理します。
人間の評価において常に好まれる。
論文 参考訳(メタデータ) (2025-11-15T03:15:34Z) - UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。
精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。
このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文 参考訳(メタデータ) (2025-11-03T07:24:57Z) - An LLM-LVLM Driven Agent for Iterative and Fine-Grained Image Editing [5.192553173010677]
RefineEdit-Agentは、複雑で反復的でコンテキスト対応の画像編集のための、新しい、トレーニング不要なインテリジェントエージェントフレームワークである。
我々のフレームワークは、LVI駆動のインストラクションとシーン理解モジュール、多レベル編集プランナー、反復画像編集モジュール、LVLM駆動のフィードバックと評価ループから構成されている。
論文 参考訳(メタデータ) (2025-08-24T16:28:18Z) - GenTune: Toward Traceable Prompts to Improve Controllability of Image Refinement in Environment Design [11.504430962819034]
GenTuneは、デザイナが生成した画像の任意の要素を選択し、それを対応するプロンプトラベルにトレースし、それらのラベルを修正して、正確で一貫した画像のリファインメントをガイドする。
20名のデザイナーによる要約研究で、GenTuneは、迅速な理解、精細化の質、効率、全体的な満足度を著しく改善した。
論文 参考訳(メタデータ) (2025-08-21T04:31:01Z) - ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models [87.43784424444128]
映画言語理解に特化したベンチマークであるShotBenchを紹介する。
画像とビデオクリップから3.5k以上の専門家によるQAペアを収録し、200本以上の称賛された(オスカー賞にノミネートされた)映画から細心の注意を払ってキュレートしている。
ShotBench上でのビジョン・ランゲージ・モデル24件の評価では,特に細粒度の視覚的手がかりや複雑な空間的推論に苦慮している。
論文 参考訳(メタデータ) (2025-06-26T15:09:21Z) - DreamOmni: Unified Image Generation and Editing [76.46811926046225]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z) - DU-VLG: Unifying Vision-and-Language Generation via Dual
Sequence-to-Sequence Pre-training [37.15272352614968]
シーケンス生成問題として視覚・言語生成を統一するフレームワークであるDU-VLGを提案する。
Du-VLGは、マルチモーダルな自動エンコーダタスクとモダリティ変換タスクという、新しい2つの事前訓練タスクで訓練されている。
その結果, DU-VLGは一方向生成目標を訓練した変種や, コミットメント損失を伴わない変種よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-03-17T03:18:22Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。