論文の概要: CountGD++: Generalized Prompting for Open-World Counting
- arxiv url: http://arxiv.org/abs/2512.23351v1
- Date: Mon, 29 Dec 2025 10:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.463365
- Title: CountGD++: Generalized Prompting for Open-World Counting
- Title(参考訳): CountGD++: オープンワールドカウントのための一般化されたプロンプト
- Authors: Niki Amini-Naieni, Andrew Zisserman,
- Abstract要約: 対象オブジェクトの指定方法を拡張する新しい機能を導入します。
具体的には、テキストや視覚的な例でカウントすべきでないことを可能とするために、プロンプトを拡張します。
また、推論における視覚例のアノテーションを自動化する擬似例の概念も導入する。
- 参考スコア(独自算出の注目度): 54.61576076312857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The flexibility and accuracy of methods for automatically counting objects in images and videos are limited by the way the object can be specified. While existing methods allow users to describe the target object with text and visual examples, the visual examples must be manually annotated inside the image, and there is no way to specify what not to count. To address these gaps, we introduce novel capabilities that expand how the target object can be specified. Specifically, we extend the prompt to enable what not to count to be described with text and/or visual examples, introduce the concept of `pseudo-exemplars' that automate the annotation of visual examples at inference, and extend counting models to accept visual examples from both natural and synthetic external images. We also use our new counting model, CountGD++, as a vision expert agent for an LLM. Together, these contributions expand the prompt flexibility of multi-modal open-world counting and lead to significant improvements in accuracy, efficiency, and generalization across multiple datasets. Code is available at https://github.com/niki-amini-naieni/CountGDPlusPlus.
- Abstract(参考訳): 画像やビデオ中のオブジェクトを自動的にカウントする手法の柔軟性と精度は、オブジェクトの指定方法によって制限される。
既存の方法では、ユーザはテキストや視覚的な例で対象のオブジェクトを記述できるが、視覚的な例は画像内に手動でアノテートする必要がある。
これらのギャップに対処するために、ターゲットオブジェクトの指定方法を拡張する新しい機能を導入します。
具体的には、テキストや視覚的な例で記述すべきでないものを有効にするプロンプトを拡張し、推論時に視覚的な例のアノテーションを自動生成する 'pseudo-exemplars' の概念を導入し、自然画像と合成画像の両方から視覚的な例を受け入れるためにカウントモデルを拡張した。
新たなカウントモデルである CountGD++ も LLM の視覚専門家エージェントとして使用しています。
これらの貢献により、マルチモーダルなオープンワールドカウントの迅速な柔軟性が拡張され、複数のデータセットにわたる精度、効率、一般化が大幅に向上する。
コードはhttps://github.com/niki-amini-naieni/CountGDPlusPlusで入手できる。
関連論文リスト
- Introducing Visual Perception Token into Multimodal Large Language Model [53.82301522384719]
MLLM(Multimodal Large Language Model)はその視覚エンコーダの知覚過程に依存している。
MLLMには、独自の視覚知覚プロセスを制御する自律的な能力がない。
本稿では,視覚知覚のプロセスを制御する機構をMLLMに組み込むことを目的として,視覚知覚トークンの概念を提案する。
論文 参考訳(メタデータ) (2025-02-24T18:56:12Z) - CountGD: Multi-Modal Open-World Counting [54.88804890463491]
本稿では,画像中のオープン語彙オブジェクトの数値化の一般化と精度の向上を目的とする。
本稿では,最初のオープンワールドカウントモデルであるCountGDを紹介した。
論文 参考訳(メタデータ) (2024-07-05T16:20:48Z) - Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring [26.14137626882127]
我々は、視覚的およびテキスト的プロンプトによるフレキシブルなオブジェクト参照を可能にする、統合された高分解能一般化モデル、Griffon v2を導入する。
我々は,大規模言語モデルにおける入力トークン制約を克服するために,シンプルで軽量なダウンサンプリングプロジェクタを設計する。
実験により、Griffon v2は、視覚的およびテキスト的参照による関心のあるオブジェクトのローカライズ、RECとフレーズグラウンドの最先端のパフォーマンス、オブジェクト検出、オブジェクトカウント、REGのエキスパートモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T12:21:37Z) - OmniCount: Multi-label Object Counting with Semantic-Geometric Priors [52.28092505350977]
本稿では,オープン語彙フレームワークを用いた複数のオブジェクトカテゴリの同時カウントを実現するための,より実践的なアプローチを提案する。
我々のソリューションであるOmniCountは、事前訓練されたモデルから意味的および幾何学的な洞察(優先順位)を用いて、ユーザが指定した複数のカテゴリのオブジェクトをカウントすることで際立っている。
OmniCount-191の包括的な評価は、他の主要なベンチマークとともに、OmniCountの例外的なパフォーマンスを示し、既存のソリューションを大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-08T16:38:11Z) - AFreeCA: Annotation-Free Counting for All [17.581015609730017]
対象物に関連する特徴を学習するための教師なしソート手法を導入する。
また,画像を確実にカウント可能な被写体を含むパッチに分割する密度分類器誘導方式を提案する。
論文 参考訳(メタデータ) (2024-03-07T23:18:34Z) - Edit As You Wish: Video Caption Editing with Multi-grained User Control [61.76233268900959]
マルチグラデーションなユーザリクエストでガイドされた既存のビデオ記述を自動的に修正する新しい textbfVideo textbfCaption textbfEditing textbf(VCE) タスクを提案する。
人間の書き直し習慣にインスパイアされたユーザコマンドは、粗い粒度からきめ細かな粒度まで多様なユーザニーズをカバーするために、重要な3重テキスト操作、位置、属性として設計される。
論文 参考訳(メタデータ) (2023-05-15T07:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。