Fugu-MT 論文翻訳(概要): Learning Discriminative Features for Crowd Counting

論文の概要: Learning Discriminative Features for Crowd Counting

arxiv url: http://arxiv.org/abs/2311.04509v1
Date: Wed, 8 Nov 2023 07:54:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 16:36:48.924507
Title: Learning Discriminative Features for Crowd Counting
Title（参考訳）: 集団カウントのための識別的特徴の学習
Authors: Yuehai Chen
Abstract要約: 群集カウントのための学習識別機能フレームワークを提案する。このフレームワークは、マスク付き特徴予測モジュールと、教師付き画素レベルのコントラスト学習モジュールとから構成される。提案したモジュールは、クラウドカウントやオブジェクト検出など、様々なコンピュータビジョンタスクにおいて有用である。
参考スコア（独自算出の注目度）: 1.3597551064547502
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Crowd counting models in highly congested areas confront two main challenges: weak localization ability and difficulty in differentiating between foreground and background, leading to inaccurate estimations. The reason is that objects in highly congested areas are normally small and high-level features extracted by convolutional neural networks are less discriminative to represent small objects. To address these problems, we propose a learning discriminative features framework for crowd counting, which is composed of a masked feature prediction module (MPM) and a supervised pixel-level contrastive learning module (CLM). The MPM randomly masks feature vectors in the feature map and then reconstructs them, allowing the model to learn about what is present in the masked regions and improving the model's ability to localize objects in high-density regions. The CLM pulls targets close to each other and pushes them far away from background in the feature space, enabling the model to discriminate foreground objects from background. Additionally, the proposed modules can be beneficial in various computer vision tasks, such as crowd counting and object detection, where dense scenes or cluttered environments pose challenges to accurate localization. The proposed two modules are plug-and-play, incorporating the proposed modules into existing models can potentially boost their performance in these scenarios.
Abstract（参考訳）: 人口密集地域における群集計数モデルは,前景と背景を区別する能力の弱さと難易度という2つの課題に直面し,不正確な推定に繋がる。その理由は、密集した領域のオブジェクトは通常小さく、畳み込みニューラルネットワークによって抽出されるハイレベルな特徴は小さなオブジェクトを表すのに差別的ではないためである。これらの問題に対処するために,マスク付き特徴予測モジュール (MPM) と教師付き画素レベルのコントラスト学習モジュール (CLM) で構成される,クラウドカウントのための学習識別機能フレームワークを提案する。 MPMは、特徴マップ内の特徴ベクトルをランダムにマスキングし、それらを再構成することで、マスクされた領域に存在するものについてモデルを学習し、高密度領域でオブジェクトをローカライズする能力を向上させる。 clmはターゲットを互いに近づけて、特徴空間の背景から遠ざけ、モデルがフォアグラウンドオブジェクトを背景から区別できるようにする。さらに、提案するモジュールは、密集したシーンや乱雑な環境が正確なローカライゼーションに困難をもたらす、クラウドカウントやオブジェクト検出など、様々なコンピュータビジョンタスクに有用である。提案された2つのモジュールはプラグ・アンド・プレイであり、既存のモデルに提案されたモジュールを組み込むことで、これらのシナリオでパフォーマンスが向上する可能性がある。

関連論文リスト

SpatialGeo:Boosting Spatial Reasoning in Multimodal LLMs via Geometry-Semantics Fusion [23.86761713752287]
MLLM(Multimodal large language model)は、画像および言語タスクにおいて大きな進歩を遂げている。ほとんどのMLLMは、空間的配置を3次元空間で解釈し推論する限られた空間的推論能力に悩まされている。幾何学と意味論の階層的融合に基づく新しい視覚エンコーダを提案し,空間認識型視覚埋め込みを生成する。
論文参考訳（メタデータ） (2025-11-21T15:24:33Z)
FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning [62.11389260206383]
textscFineRSは、非常に小さなオブジェクトをセグメント化するための2段階のMLLMベースの強化学習フレームワークである。 textscFineRS-4kは,属性レベルの推論に基づくMLLMの評価と,微妙で小規模なターゲットに対する画素レベルのセグメンテーションのための新しいデータセットである。
論文参考訳（メタデータ） (2025-10-24T10:14:17Z)
Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。 2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文参考訳（メタデータ） (2025-08-15T06:43:51Z)
LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [56.474856189865946]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。 LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-08T07:46:26Z)
Locally Grouped and Scale-Guided Attention for Dense Pest Counting [1.9580473532948401]
本研究は,デジタルトラップによって捕獲された密集した害虫を予測するための,新たな密集した害虫計数問題を提案する。これらの問題に対処するためには、局所的な注意機構を組み込むことが不可欠である。本研究では,局所的なグループ化とスケール誘導による注意をマルチスケールのCenterNetフレームワークに統合する新しい設計を提案する。
論文参考訳（メタデータ） (2024-08-29T13:02:01Z)
Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文参考訳（メタデータ） (2024-08-05T08:35:59Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文参考訳（メタデータ） (2024-02-13T18:39:18Z)
A bioinspired three-stage model for camouflaged object detection [8.11866601771984]
本稿では,1回の繰り返しで粗い部分分割を可能にする3段階モデルを提案する。本モデルでは, 3つのデコーダを用いて, サブサンプル特徴, 収穫特徴, および高解像度のオリジナル特徴を逐次処理する。我々のネットワークは、不要な複雑さを伴わずに最先端のCNNベースのネットワークを上回る。
論文参考訳（メタデータ） (2023-05-22T02:01:48Z)
Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo Labeling and Multi-scale Feature Grouping [40.07070188661184]
Wakly-Supervised Concealed Object (WSCOS) は、周囲の環境とうまく融合したオブジェクトを分割することを目的としている。内在的な類似性のため、背景から隠された物体を区別することは困難である。これら2つの課題に対処する新しいWSCOS手法を提案する。
論文参考訳（メタデータ） (2023-05-18T14:31:34Z)
DuAT: Dual-Aggregation Transformer Network for Medical Image Segmentation [21.717520350930705]
トランスフォーマーベースのモデルはコンピュータビジョンタスクで成功することが広く実証されている。しかし、それらはしばしば大きなパターンの特徴によって支配され、局所的な詳細が失われる。本稿では、2つの革新的な設計を特徴とするDuATと呼ばれるDual-Aggregation Transformer Networkを提案する。大腸内視鏡画像における皮膚病変像とポリープの分画における最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2022-12-21T07:54:02Z)
DQnet: Cross-Model Detail Querying for Camouflaged Object Detection [54.82390534024954]
カモフラージュされた物体検出のための畳み込みニューラルネットワーク(CNN)は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向がある。本稿では,CNNの内在的特性から部分的活性化が引き起こされることを論じる。完全なオブジェクト範囲を活性化できる特徴マップを得るために,クロスモデル詳細クエリネットワーク(DQnet)と呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-16T06:23:58Z)
AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。 AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文参考訳（メタデータ） (2022-02-18T10:14:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。