論文の概要: Learning Discriminative Features for Crowd Counting
- arxiv url: http://arxiv.org/abs/2311.04509v1
- Date: Wed, 8 Nov 2023 07:54:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 16:36:48.924507
- Title: Learning Discriminative Features for Crowd Counting
- Title(参考訳): 集団カウントのための識別的特徴の学習
- Authors: Yuehai Chen
- Abstract要約: 群集カウントのための学習識別機能フレームワークを提案する。
このフレームワークは、マスク付き特徴予測モジュールと、教師付き画素レベルのコントラスト学習モジュールとから構成される。
提案したモジュールは、クラウドカウントやオブジェクト検出など、様々なコンピュータビジョンタスクにおいて有用である。
- 参考スコア(独自算出の注目度): 1.3597551064547502
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Crowd counting models in highly congested areas confront two main challenges:
weak localization ability and difficulty in differentiating between foreground
and background, leading to inaccurate estimations. The reason is that objects
in highly congested areas are normally small and high-level features extracted
by convolutional neural networks are less discriminative to represent small
objects. To address these problems, we propose a learning discriminative
features framework for crowd counting, which is composed of a masked feature
prediction module (MPM) and a supervised pixel-level contrastive learning
module (CLM). The MPM randomly masks feature vectors in the feature map and
then reconstructs them, allowing the model to learn about what is present in
the masked regions and improving the model's ability to localize objects in
high-density regions. The CLM pulls targets close to each other and pushes them
far away from background in the feature space, enabling the model to
discriminate foreground objects from background. Additionally, the proposed
modules can be beneficial in various computer vision tasks, such as crowd
counting and object detection, where dense scenes or cluttered environments
pose challenges to accurate localization. The proposed two modules are
plug-and-play, incorporating the proposed modules into existing models can
potentially boost their performance in these scenarios.
- Abstract(参考訳): 人口密集地域における群集計数モデルは,前景と背景を区別する能力の弱さと難易度という2つの課題に直面し,不正確な推定に繋がる。
その理由は、密集した領域のオブジェクトは通常小さく、畳み込みニューラルネットワークによって抽出されるハイレベルな特徴は小さなオブジェクトを表すのに差別的ではないためである。
これらの問題に対処するために,マスク付き特徴予測モジュール (MPM) と教師付き画素レベルのコントラスト学習モジュール (CLM) で構成される,クラウドカウントのための学習識別機能フレームワークを提案する。
MPMは、特徴マップ内の特徴ベクトルをランダムにマスキングし、それらを再構成することで、マスクされた領域に存在するものについてモデルを学習し、高密度領域でオブジェクトをローカライズする能力を向上させる。
clmはターゲットを互いに近づけて、特徴空間の背景から遠ざけ、モデルがフォアグラウンドオブジェクトを背景から区別できるようにする。
さらに、提案するモジュールは、密集したシーンや乱雑な環境が正確なローカライゼーションに困難をもたらす、クラウドカウントやオブジェクト検出など、様々なコンピュータビジョンタスクに有用である。
提案された2つのモジュールはプラグ・アンド・プレイであり、既存のモデルに提案されたモジュールを組み込むことで、これらのシナリオでパフォーマンスが向上する可能性がある。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Hi-ResNet: A High-Resolution Remote Sensing Network for Semantic
Segmentation [7.216053041550996]
高分解能リモートセンシング(HRS)セマンティックセマンティクスは、高分解能カバレッジ領域からキーオブジェクトを抽出する。
HRS画像内の同じカテゴリのオブジェクトは、多様な地理的環境におけるスケールと形状の顕著な違いを示す。
効率的なネットワーク構造を持つ高分解能リモートセンシングネットワーク(Hi-ResNet)を提案する。
論文 参考訳(メタデータ) (2023-05-22T03:58:25Z) - A bioinspired three-stage model for camouflaged object detection [8.11866601771984]
本稿では,1回の繰り返しで粗い部分分割を可能にする3段階モデルを提案する。
本モデルでは, 3つのデコーダを用いて, サブサンプル特徴, 収穫特徴, および高解像度のオリジナル特徴を逐次処理する。
我々のネットワークは、不要な複雑さを伴わずに最先端のCNNベースのネットワークを上回る。
論文 参考訳(メタデータ) (2023-05-22T02:01:48Z) - Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo
Labeling and Multi-scale Feature Grouping [40.07070188661184]
Wakly-Supervised Concealed Object (WSCOS) は、周囲の環境とうまく融合したオブジェクトを分割することを目的としている。
内在的な類似性のため、背景から隠された物体を区別することは困難である。
これら2つの課題に対処する新しいWSCOS手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T14:31:34Z) - DuAT: Dual-Aggregation Transformer Network for Medical Image
Segmentation [21.717520350930705]
トランスフォーマーベースのモデルはコンピュータビジョンタスクで成功することが広く実証されている。
しかし、それらはしばしば大きなパターンの特徴によって支配され、局所的な詳細が失われる。
本稿では、2つの革新的な設計を特徴とするDuATと呼ばれるDual-Aggregation Transformer Networkを提案する。
大腸内視鏡画像における皮膚病変像とポリープの分画における最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-21T07:54:02Z) - DQnet: Cross-Model Detail Querying for Camouflaged Object Detection [54.82390534024954]
カモフラージュされた物体検出のための畳み込みニューラルネットワーク(CNN)は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向がある。
本稿では,CNNの内在的特性から部分的活性化が引き起こされることを論じる。
完全なオブジェクト範囲を活性化できる特徴マップを得るために,クロスモデル詳細クエリネットワーク(DQnet)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:58Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Discovery-and-Selection: Towards Optimal Multiple Instance Learning for
Weakly Supervised Object Detection [86.86602297364826]
複数インスタンス学習(DS-MIL)と融合した発見・選択手法を提案する。
我々の提案するDS-MILアプローチは,最先端の性能を報告しながら,ベースラインを一貫して改善することができる。
論文 参考訳(メタデータ) (2021-10-18T07:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。