論文の概要: YOLO-Count: Differentiable Object Counting for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2508.00728v1
- Date: Fri, 01 Aug 2025 15:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.940465
- Title: YOLO-Count: Differentiable Object Counting for Text-to-Image Generation
- Title(参考訳): YOLO-Count:テキスト対画像生成のための微分可能なオブジェクトカウント
- Authors: Guanning Zeng, Xiang Zhang, Zirui Wang, Haiyang Xu, Zeyuan Chen, Bingnan Li, Zhuowen Tu,
- Abstract要約: YOLO-Countは、一般的なカウント問題に対処し、テキスト・ツー・イメージ(T2I)生成のための正確な量制御を可能にする、微分可能なオープン語彙オブジェクトカウントモデルである。
コアコントリビューションは、オブジェクトサイズと空間分布のバリエーションを考慮に入れた、新しい回帰ターゲットである「心電図」である。
- 参考スコア(独自算出の注目度): 49.79896127854202
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose YOLO-Count, a differentiable open-vocabulary object counting model that tackles both general counting challenges and enables precise quantity control for text-to-image (T2I) generation. A core contribution is the 'cardinality' map, a novel regression target that accounts for variations in object size and spatial distribution. Leveraging representation alignment and a hybrid strong-weak supervision scheme, YOLO-Count bridges the gap between open-vocabulary counting and T2I generation control. Its fully differentiable architecture facilitates gradient-based optimization, enabling accurate object count estimation and fine-grained guidance for generative models. Extensive experiments demonstrate that YOLO-Count achieves state-of-the-art counting accuracy while providing robust and effective quantity control for T2I systems.
- Abstract(参考訳): 本稿では,テキスト・ツー・イメージ(T2I)生成の正確な量制御を実現するために,一般の計数課題に対処する,微分可能なオープンボキャブラリオブジェクトカウントモデルであるYOLO-Countを提案する。
コアコントリビューションは、オブジェクトサイズと空間分布のバリエーションを考慮に入れた、新しい回帰ターゲットである「心電図」である。
YOLO-Countは、表現アライメントとハイブリッドの強弱監督スキームを活用して、オープン語彙カウントとT2I生成制御のギャップを埋める。
完全に微分可能なアーキテクチャは勾配に基づく最適化を容易にし、正確なオブジェクト数の推定と生成モデルのきめ細かいガイダンスを可能にする。
大規模な実験により、YOLO-CountはT2Iシステムに対して堅牢で効果的な量制御を提供しながら、最先端のカウント精度を達成することが示された。
関連論文リスト
- Reinforcing Multimodal Understanding and Generation with Dual Self-rewards [56.08202047680044]
大規模言語モデル(LLM)は、クロスモデル理解と生成を単一のフレームワークに統合する。
現在のソリューションでは、外部の監視(例えば、人間のフィードバックや報酬モデル)が必要であり、一方向のタスクにのみ対処する。
我々は,LMMの理解と生成能力を強化するために,自己監督型二重報酬機構を導入する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - CountDiffusion: Text-to-Image Synthesis with Training-Free Counting-Guidance Diffusion [82.82885671486795]
テキスト記述から適切なオブジェクト量で画像を生成するためのトレーニング不要のフレームワークであるCountDiffusionを提案する。
提案したCountDiffusionは、さらなるトレーニングなしで、拡散ベースのテキスト・ツー・イメージ(T2I)生成モデルにプラグインすることができる。
論文 参考訳(メタデータ) (2025-05-07T11:47:35Z) - Just Functioning as a Hook for Two-Stage Referring Multi-Object Tracking [22.669740476582835]
Referring Multi-Object Tracking (RMOT) は、ビデオ中の自然言語表現によって指定されたターゲット軌跡をローカライズすることを目的としている。
2段階RMOTのための新しいフック型フレームワークJustHookを提案する。
論文 参考訳(メタデータ) (2025-03-10T16:38:42Z) - Text-to-Image Diffusion Models Cannot Count, and Prompt Refinement Cannot Help [18.70937620674227]
T2ICountBenchは、最先端のテキスト・画像拡散モデルのカウント能力を厳格に評価するために設計された新しいベンチマークである。
評価の結果, 物体数の増加に伴い精度が著しく低下し, 全ての拡散モデルが正しい物体数を生成することができないことがわかった。
論文 参考訳(メタデータ) (2025-03-10T03:28:18Z) - T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting [20.21019748095159]
ゼロショットオブジェクトカウントは、テキスト記述によって指定された任意のオブジェクトカテゴリのインスタンスをカウントすることを目的としている。
我々は、事前学習した拡散モデルから、豊富な事前知識ときめ細かい視覚的理解を活用する拡散に基づくフレームワークT2ICountを提案する。
論文 参考訳(メタデータ) (2025-02-28T01:09:18Z) - YOLO Evolution: A Comprehensive Benchmark and Architectural Review of YOLOv12, YOLO11, and Their Previous Versions [0.0]
本研究は, YOLOv3から最新のYOLOv12への包括的実験評価である。
考慮すべき課題は、さまざまなオブジェクトサイズ、多様なアスペクト比、単一クラスの小さなオブジェクトである。
分析では各YOLOバージョンの特徴的長所と短所を強調した。
論文 参考訳(メタデータ) (2024-10-31T20:45:00Z) - DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。