論文の概要: CountLoop: Training-Free High-Instance Image Generation via Iterative Agent Guidance
- arxiv url: http://arxiv.org/abs/2508.16644v1
- Date: Mon, 18 Aug 2025 11:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.078901
- Title: CountLoop: Training-Free High-Instance Image Generation via Iterative Agent Guidance
- Title(参考訳): CountLoop: 反復エージェントガイダンスによるトレーニング不要の高インスタンス画像生成
- Authors: Anindya Mondal, Ayan Banerjee, Sauradip Nag, Josep Lladós, Xiatian Zhu, Anjan Dutta,
- Abstract要約: 我々は、正確なインスタンス制御を備えた拡散モデルを提供するトレーニング不要のフレームワークであるCountLoopを提案する。
COCO Count、T2I CompBench、および2つの新しいハイインスタンスベンチマークの実験は、CountLoopが最大98%のカウント精度を達成したことを示している。
- 参考スコア(独自算出の注目度): 47.59187786346473
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Diffusion models have shown remarkable progress in photorealistic image synthesis, yet they remain unreliable for generating scenes with a precise number of object instances, particularly in complex and high-density settings. We present CountLoop, a training-free framework that provides diffusion models with accurate instance control through iterative structured feedback. The approach alternates between image generation and multimodal agent evaluation, where a language-guided planner and critic assess object counts, spatial arrangements, and attribute consistency. This feedback is then used to refine layouts and guide subsequent generations. To further improve separation between objects, especially in occluded scenes, we introduce instance-driven attention masking and compositional generation techniques. Experiments on COCO Count, T2I CompBench, and two new high-instance benchmarks show that CountLoop achieves counting accuracy of up to 98% while maintaining spatial fidelity and visual quality, outperforming layout-based and gradient-guided baselines with a score of 0.97.
- Abstract(参考訳): 拡散モデルは、フォトリアリスティックな画像合成において顕著な進歩を見せているが、特に複雑で高密度な設定において、正確な数のオブジェクトインスタンスを持つシーンを生成するには信頼性が低い。
反復的構造化フィードバックによる正確なインスタンス制御が可能な拡散モデルを提供する,トレーニングフリーのフレームワークであるCountLoopを提案する。
この手法は画像生成とマルチモーダルエージェント評価を交互に行い、言語誘導型プランナーと評論家が対象数、空間配置、属性一貫性を評価する。
このフィードバックは、レイアウトを洗練し、その後の世代をガイドするために使われる。
オブジェクトの分離,特に隠蔽シーンにおける分離をさらに改善するために,インスタンス駆動の注目マスキングと合成生成技術を導入する。
COCO Count, T2I CompBench, and two new high-instance benchmarks showed that CountLoop achieves counting accuracy of 98% while maintain the spatial fidelity and visual quality, outforming layout-based and gradient-guided baselines with a score 0.97。
関連論文リスト
- CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。
しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。
我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文 参考訳(メタデータ) (2025-05-16T12:23:58Z) - Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。
我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。
このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文 参考訳(メタデータ) (2024-12-19T05:02:30Z) - What Makes a Scene ? Scene Graph-based Evaluation and Feedback for Controllable Generation [29.42202665594218]
Scene-Benchは、自然シーンの生成における現実的一貫性の評価と強化を目的とした総合的なベンチマークである。
Scene-Benchは、シーングラフに注釈を付けた100万の画像の大規模なデータセットであるMegaSGと、新しい評価指標であるSGScoreで構成されている。
本研究では,シーングラフと画像間の不一致を識別・補正することにより,生成した画像を反復的に洗練するシーングラフフィードバックパイプラインを開発する。
論文 参考訳(メタデータ) (2024-11-23T03:40:25Z) - DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。