論文の概要: Bootstrapping MLLM for Weakly-Supervised Class-Agnostic Object Counting
- arxiv url: http://arxiv.org/abs/2602.12774v1
- Date: Fri, 13 Feb 2026 09:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.917776
- Title: Bootstrapping MLLM for Weakly-Supervised Class-Agnostic Object Counting
- Title(参考訳): 弱教師付きクラス非依存オブジェクトカウントのためのブートストラップMLLM
- Authors: Xiaowen Zhang, Zijie Yue, Yong Luo, Cairong Zhao, Qijun Chen, Miaojing Shi,
- Abstract要約: 本稿では,クラスに依存しないオブジェクトカウントのためのMLLM駆動型弱教師付きフレームワークWS-COCを提案する。
WS-COCは、多くの最先端の完全に管理されたメソッドと一致し、また、アノテーションのコストを大幅に削減します。
- 参考スコア(独自算出の注目度): 59.37613121962146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object counting is a fundamental task in computer vision, with broad applicability in many real-world scenarios. Fully-supervised counting methods require costly point-level annotations per object. Few weakly-supervised methods leverage only image-level object counts as supervision and achieve fairly promising results. They are, however, often limited to counting a single category, e.g. person. In this paper, we propose WS-COC, the first MLLM-driven weakly-supervised framework for class-agnostic object counting. Instead of directly fine-tuning MLLMs to predict object counts, which can be challenging due to the modality gap, we incorporate three simple yet effective strategies to bootstrap the counting paradigm in both training and testing: First, a divide-and-discern dialogue tuning strategy is proposed to guide the MLLM to determine whether the object count falls within a specific range and progressively break down the range through multi-round dialogue. Second, a compare-and-rank count optimization strategy is introduced to train the MLLM to optimize the relative ranking of multiple images according to their object counts. Third, a global-and-local counting enhancement strategy aggregates and fuses local and global count predictions to improve counting performance in dense scenes. Extensive experiments on FSC-147, CARPK, PUCPR+, and ShanghaiTech show that WS-COC matches or even surpasses many state-of-art fully-supervised methods while significantly reducing annotation costs. Code is available at https://github.com/viscom-tongji/WS-COC.
- Abstract(参考訳): オブジェクトカウントはコンピュータビジョンにおける基本的なタスクであり、多くの現実世界のシナリオで広く適用可能である。
完全な教師付きカウントメソッドは、オブジェクトごとのポイントレベルのアノテーションを必要とする。
画像レベルのオブジェクト数のみを監督として活用し、かなり有望な結果を得る方法はほとんどない。
しかし、それらは一つのカテゴリー、例えば人物を数えることに制限されることが多い。
本稿では,クラス非依存オブジェクトカウントのためのMLLM駆動型弱教師付きフレームワークWS-COCを提案する。
まず,対象数が特定の範囲内にあるかどうかを判断し,多ラウンド対話を通して範囲を段階的に破壊するために,MLLMを誘導する分割・認識対話チューニング戦略を提案する。
第2に、MLLMを訓練し、オブジェクト数に応じて複数の画像の相対的なランク付けを最適化するために、比較とランク付けの最適化戦略を導入する。
第3に,グローバル・ローカル・カウント・エンハンスメント・ストラテジーが集約され,局所・グローバル・カウント予測が融合し,密集したシーンにおけるカウント・パフォーマンスが向上する。
FSC-147, CARPK, PUCPR+, ShanghaiTechの大規模な実験は、WS-COCが多くの最先端の完全教師付き手法と一致し、アノテーションのコストを大幅に削減していることを示している。
コードはhttps://github.com/viscom-tongji/WS-COCで入手できる。
関連論文リスト
- LLM-MemCluster: Empowering Large Language Models with Dynamic Memory for Text Clustering [52.41664454251679]
大規模言語モデル(LLM)は、テキストクラスタリングを行う前例のない能力を提供することで、教師なしの学習を再構築している。
既存のメソッドは、しばしば外部モジュールを持つ複雑なパイプラインに依存し、真にエンドツーエンドのアプローチを犠牲にする。
LLM-MemClusterは,クラスタリングをLLMネイティブタスクとして再認識する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-19T13:22:08Z) - LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Point, Segment and Count: A Generalized Framework for Object Counting [40.192374437785155]
クラスに依存しないオブジェクトカウントは、例ボックスやクラス名に関して、イメージ内のすべてのオブジェクトをカウントすることを目的としている。
本稿では,検出に基づく少数ショットとゼロショットの両方のオブジェクトカウントのための一般化されたフレームワークを提案する。
PseCoは、少数ショット/ゼロショットオブジェクトカウント/検出の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-21T06:55:21Z) - SQLNet: Scale-Modulated Query and Localization Network for Few-Shot Class-Agnostic Counting [67.97870844244187]
CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。
我々は、スケール変調クエリーおよびローカライズネットワーク(Net)と呼ばれる、新しいローカライズベースのCACアプローチを提案する。
クエリとローカライゼーションの段階において、模範者のスケールを完全に探求し、各オブジェクトを正確に位置付けし、その近似サイズを予測することで、効果的なカウントを実現している。
論文 参考訳(メタデータ) (2023-11-16T16:50:56Z) - Learning from Counting: Leveraging Temporal Classification for Weakly
Supervised Object Localization and Detection [4.971083368517706]
2次元画像を1次元シーケンスデータにシリアライズするスキャンオーダー技術を導入する。
次にLSTM(Long, Short-Term Memory)とCTCネットワークを組み合わせてオブジェクトのローカライゼーションを実現する。
論文 参考訳(メタデータ) (2021-03-06T02:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。