Fugu-MT 論文翻訳(概要): Towards More Effective PRM-based Crowd Counting via A Multi-resolution Fusion and Attention Network

論文の概要: Towards More Effective PRM-based Crowd Counting via A Multi-resolution Fusion and Attention Network

arxiv url: http://arxiv.org/abs/2112.09664v1
Date: Fri, 17 Dec 2021 18:17:02 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-20 16:32:17.381884
Title: Towards More Effective PRM-based Crowd Counting via A Multi-resolution Fusion and Attention Network
Title（参考訳）: マルチレゾリューション・フュージョン・アンド・アテンション・ネットワークによるより効果的なPRMベースの集団カウント
Authors: Usman Sajid, Guanghui Wang
Abstract要約: PRMをベースとしたマルチレゾリューションとマルチタスクのクラウドカウントネットワークを提案する。提案モデルは3つの深層分岐で構成され,各枝は異なる解像度の特徴写像を生成する。これらの深部分岐を PRM モジュールや早期適応ブロックと統合することは、元の PRM ベースのスキームよりも効果的であることが証明されている。
参考スコア（独自算出の注目度）: 22.235440703471518
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The paper focuses on improving the recent plug-and-play patch rescaling module (PRM) based approaches for crowd counting. In order to make full use of the PRM potential and obtain more reliable and accurate results for challenging images with crowd-variation, large perspective, extreme occlusions, and cluttered background regions, we propose a new PRM based multi-resolution and multi-task crowd counting network by exploiting the PRM module with more effectiveness and potency. The proposed model consists of three deep-layered branches with each branch generating feature maps of different resolutions. These branches perform a feature-level fusion across each other to build the vital collective knowledge to be used for the final crowd estimate. Additionally, early-stage feature maps undergo visual attention to strengthen the later-stage channels understanding of the foreground regions. The integration of these deep branches with the PRM module and the early-attended blocks proves to be more effective than the original PRM based schemes through extensive numerical and visual evaluations on four benchmark datasets. The proposed approach yields a significant improvement by a margin of 12.6% in terms of the RMSE evaluation criterion. It also outperforms state-of-the-art methods in cross-dataset evaluations.
Abstract（参考訳）: 本稿では,最近のプラグアンドプレイ・パッチ・リスケーリング・モジュール (PRM) に基づく群集カウント手法の改良に焦点を当てた。 PRMのポテンシャルをフル活用し、群衆変動、大局的視点、極端閉塞、散在する背景領域を含む課題の画像に対して、より信頼性が高く正確な結果を得るために、より有効性と有効性のあるPRMモジュールを利用して、新しいPRMベースのマルチレゾリューションおよびマルチタスク・クラウドカウントネットワークを提案する。提案モデルは3つの深層分岐で構成され,それぞれ異なる解像度の特徴写像を生成する。これらのブランチは互いに機能レベルの融合を行い、最終的な群衆の見積もりに使用する重要な集合的知識を構築する。さらに、初期特徴マップは、前景領域の後期チャネル理解を強化するために視覚的な注意を払っている。これらの深部分岐を PRM モジュールと早期適応ブロックと統合することにより、4つのベンチマークデータセットの広範な数値的および視覚的評価を通じて、元の PRM ベースのスキームよりも効果的であることが証明された。提案手法は, RMSE評価基準において, 12.6%のマージンで大幅に改善された。また、クロスデータセット評価において最先端の手法よりも優れている。

関連論文リスト

Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process [55.91649771370862]
ディリクレ過程(DP)混合モデルは、最も顕著な特徴を増幅できる強力な非パラメトリック法である。本稿では,DP駆動型マルチモーダル学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-23T16:53:24Z)
WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。 WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2025-07-23T16:02:06Z)
SRMF: A Data Augmentation and Multimodal Fusion Approach for Long-Tail UHR Satellite Image Segmentation [24.914583619821585]
超高解像度(UHR)衛星画像のセマンティックセグメンテーションのための新しいフレームワークFを紹介する。提案手法は, セマンティックリオーダーと再サンプリングに基づくデータ拡張戦略と並行して, マルチスケールの収穫手法を組み込むことにより, ロングテールクラス分布に対処する。 URUR, GID, FBPデータセットを用いた実験では,mIoUが3.33%, 0.66%, 0.98%向上し, 最先端性能が得られた。
論文参考訳（メタデータ） (2025-04-28T14:39:59Z)
Accurate Peak Detection in Multimodal Optimization via Approximated Landscape Learning [8.839347987566336]
本稿では,ランドスケープ知識をフル活用してピーク検出を容易にする,APDMMO(APDMMO)と呼ばれるMMOPに適した新しい最適化フレームワークを提案する。具体的には,まず,多様なMMOPの回帰精度を向上させるために,非線形アクティベーションユニット群をアンサンブルする新しいサロゲートランドスケープモデルを設計する。そこで本研究では,学習したサロゲートランドスケープモデルに基づくバックプロパゲーションにより,潜在的ピーク領域を効率的に検出する自由度ピーク検出手法を提案する。
論文参考訳（メタデータ） (2025-03-23T13:21:53Z)
SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion [59.96233305733875]
時系列予測は、金融、交通管理、エネルギー、医療など様々な分野で重要な役割を果たしている。いくつかの方法は、注意やミキサーのようなメカニズムを利用して、チャネル相関をキャプチャすることでこの問題に対処する。本稿では,効率的なモデルであるSOFTS(Series-cOre Fused Time Series forecaster)を提案する。
論文参考訳（メタデータ） (2024-04-22T14:06:35Z)
MCU-Net: A Multi-prior Collaborative Deep Unfolding Network with Gates-controlled Spatial Attention for Accelerated MR Image Reconstruction [9.441882492801174]
ディープ・アンフォールディング・ネットワーク(DUN)はMRI(accrating magnetic resonance imaging)において有意な可能性を証明しているしかし、それらはしばしば高い計算コストと緩やかな収束率に遭遇する。我々はこれらの制約に対処するため、MCU-Netと呼ばれるマルチプライオリティ協調型DUNを提案する。
論文参考訳（メタデータ） (2024-02-04T07:29:00Z)
Curriculum-scheduled Knowledge Distillation from Multiple Pre-trained Teachers for Multi-domain Sequential Recommendation [102.91236882045021]
現実世界のシステムにおいて、様々な事前学習されたレコメンデーションモデルを効率的に利用する方法について検討することが不可欠である。多分野連続的な推薦のために,複数の事前学習教師によるカリキュラムスケジューリング型知識蒸留を提案する。 CKD-MDSRは、複数の教師モデルとして異なるPRMの利点を最大限に活用し、小学生推薦モデルを強化している。
論文参考訳（メタデータ） (2024-01-01T15:57:15Z)
Spatial Attention-based Distribution Integration Network for Human Pose Estimation [0.8052382324386398]
本研究では,空間アテンションに基づく分布統合ネットワーク(SADI-NET)を提案する。我々のネットワークは、受容強化モジュール(RFM)、空間融合モジュール(SFM)、分散学習モジュール(DLM)の3つの効率的なモデルで構成されている。我々のモデルは、MPIIテストデータセットで920.10%の精度を得、既存のモデルよりも大幅に改善され、最先端のパフォーマンスが確立された。
論文参考訳（メタデータ） (2023-11-09T12:43:01Z)
MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文参考訳（メタデータ） (2022-01-24T17:48:04Z)
Deep Co-supervision and Attention Fusion Strategy for Automatic COVID-19 Lung Infection Segmentation on CT Images [1.898617934078969]
本稿では,CT画像上でのCOVID-19感染に対する新たなセグメンテーション手法を提案する。エッジとセマンティクスの特徴をネットワークで学習する上での深い協調管理手法を提案する。提案手法の有効性は, 新型コロナウイルスの4つのCTデータセットで実証された。
論文参考訳（メタデータ） (2021-12-20T07:32:39Z)
PANet: Perspective-Aware Network with Dynamic Receptive Fields and Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文参考訳（メタデータ） (2021-10-31T04:43:05Z)
Crowd Counting via Perspective-Guided Fractional-Dilation Convolution [75.36662947203192]
本稿では,PFDNetと呼ばれる新しい畳み込みニューラルネットワークを用いた群集カウント手法を提案する。連続スケールの変動をモデル化することにより、提案したPFDNetは、異なる空間位置に対応するための適切な分数拡張カーネルを選択することができる。これは、個々の代表スケールのみを考慮した最先端技術の柔軟性を著しく向上させる。
論文参考訳（メタデータ） (2021-07-08T07:57:00Z)
Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark for Crowd Counting [109.32927895352685]
RGBT Crowd Counting (RGBT-CC) ベンチマークは2,030対のRGB熱画像と138,389人の注釈付き画像を含む。マルチモーダルな群集カウントを容易にするために,クロスモーダルな協調表現学習フレームワークを提案する。 RGBT-CCベンチマークで行った実験は、RGBTの群集カウントにおけるフレームワークの有効性を示した。
論文参考訳（メタデータ） (2020-12-08T16:18:29Z)
Multi-Resolution Fusion and Multi-scale Input Priors Based Crowd Counting [20.467558675556173]
本稿では,マルチレゾリューション・フュージョンに基づくエンドツーエンドのクラウドカウントネットワークを提案する。 PRMモジュールの効率的な代替として、3つの入力先が導入された。提案手法は, クロスデータセット実験において, 最適な結果を得るために, より優れた一般化能力を有する。
論文参考訳（メタデータ） (2020-10-04T19:30:13Z)
Plug-and-Play Rescaling Based Crowd Counting in Static Images [24.150701096083242]
我々は,新しいイメージパッチ再スケーリングモジュール (PRM) と3つの独立したPRMを用いたクラウドカウント手法を提案する。提案するフレームワークは,PRMモジュールを用いて特別な処理を必要とする画像領域(パッチ)を再スケールする。
論文参考訳（メタデータ） (2020-01-06T21:43:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。