論文の概要: TFCounter:Polishing Gems for Training-Free Object Counting
- arxiv url: http://arxiv.org/abs/2405.02301v1
- Date: Tue, 12 Mar 2024 10:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 10:40:42.751845
- Title: TFCounter:Polishing Gems for Training-Free Object Counting
- Title(参考訳): TFCounter: トレーニング不要なオブジェクトカウントのためのGemの公開
- Authors: Pan Ting, Jianfeng Lin, Wenhao Yu, Wenlong Zhang, Xiaoying Chen, Jinlu Zhang, Binqiang Huang,
- Abstract要約: 既存のオブジェクトカウント手法は、優れたパフォーマンスを実現し、高い一般化性を維持し、アノテーションのコストを最小限に抑えるという3つの課題に直面している。
TFCounterは,大規模基盤モデルの必須要素のカスケードを介し,プロンプト・コンテクスト対応のTFCounterを開発する。
それは、形状、外観、大きさの異なる幅広い物体のスペクトルを認識するために、二重プロンプトシステムを備えた反復的な計数フレームワークを使用している。
- 参考スコア(独自算出の注目度): 11.04184082700736
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Object counting is a challenging task with broad application prospects in security surveillance, traffic management, and disease diagnosis. Existing object counting methods face a tri-fold challenge: achieving superior performance, maintaining high generalizability, and minimizing annotation costs. We develop a novel training-free class-agnostic object counter, TFCounter, which is prompt-context-aware via the cascade of the essential elements in large-scale foundation models. This approach employs an iterative counting framework with a dual prompt system to recognize a broader spectrum of objects varying in shape, appearance, and size. Besides, it introduces an innovative context-aware similarity module incorporating background context to enhance accuracy within messy scenes. To demonstrate cross-domain generalizability, we collect a novel counting dataset named BIKE-1000, including exclusive 1000 images of shared bicycles from Meituan. Extensive experiments on FSC-147, CARPK, and BIKE-1000 datasets demonstrate that TFCounter outperforms existing leading training-free methods and exhibits competitive results compared to trained counterparts.
- Abstract(参考訳): オブジェクトカウントは、セキュリティ監視、交通管理、病気の診断において幅広い応用の見通しを持つ、困難なタスクである。
既存のオブジェクトカウント手法は、優れたパフォーマンスを実現し、高い一般化性を維持し、アノテーションのコストを最小限に抑えるという3つの課題に直面している。
我々は,大規模基盤モデルの必須要素のカスケードを介し,プロンプト・コンテクスト・アウェアであるTFCounterという,新しい学習不要なクラス非依存オブジェクトカウンタを開発した。
このアプローチでは、形状、外観、大きさの異なる幅広いオブジェクトのスペクトルを認識するために、二重プロンプトシステムを備えた反復的数え上げフレームワークを採用している。
さらに、背景コンテキストを組み込んだ革新的なコンテキスト認識類似モジュールを導入し、散らかったシーン内で精度を高める。
クロスドメインの一般化性を示すために,Meituan の共有自転車の1,000枚画像を含む,BIKE-1000 という新しいカウントデータセットを収集した。
FSC-147、CARPK、BIKE-1000データセットに関する大規模な実験は、TFCounterが既存のトレーニング不要の手法より優れており、トレーニング対象と比較して競争力のある結果を示していることを示している。
関連論文リスト
- Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and Tracking [37.186306646752975]
マルチビュー3次元検出・追跡タスクのための統合オブジェクト認識時間学習フレームワークを提案する。
提案モデルでは,異なる設計のベースラインよりも一貫した性能向上を実現している。
論文 参考訳(メタデータ) (2024-07-03T16:10:19Z) - UniFS: Universal Few-shot Instance Perception with Point Representations [36.943019984075065]
そこで我々は,UniFSを提案する。UniFSは多種多様なインスタンス認識タスクを統一する汎用のインスタンス認識モデルである。
提案手法は,タスクについて最小限の仮定を行うが,高度に専門的で最適化されたスペシャリストモデルと比較して,競争力のある結果が得られる。
論文 参考訳(メタデータ) (2024-04-30T09:47:44Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Self-Supervised Consistent Quantization for Fully Unsupervised Image
Retrieval [17.422973861218182]
教師なし画像検索は、高価なデータアノテーションを使わずに効率的な検索システムを学習することを目的としている。
近年の進歩は、視覚的特徴と量子化符号を協調的に最適化するために、深いモデルをスクラッチからトレーニングすることを目的とした、完全な教師なし画像検索を提案する。
本稿では, 部分一貫した量子化と大域一貫した量子化からなる, 完全教師なし画像検索のための, 自己教師付き一貫した量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T14:39:59Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。