Fugu-MT 論文翻訳(概要): The Effectiveness of a Simplified Model Structure for Crowd Counting

論文の概要: The Effectiveness of a Simplified Model Structure for Crowd Counting

arxiv url: http://arxiv.org/abs/2404.07847v2
Date: Mon, 3 Jun 2024 04:02:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 15:27:55.013461
Title: The Effectiveness of a Simplified Model Structure for Crowd Counting
Title（参考訳）: 群衆計数における簡易モデル構造の有効性
Authors: Lei Chen, Xinghang Gao, Fei Chao, Chih Min Lin, Xingen Gao, Hongyi Zhang, Juqiang Lin,
Abstract要約: 本稿では,単純な構造のみを用いて,高性能なクラウドカウントモデルを構築する方法について論じる。本稿では,バックボーンネットワークとマルチスケール機能融合構造のみからなる,そのシンプルで効率的な構造を特徴とするFuss-Free Network(FFNet)を提案する。提案するクラウドカウントモデルは,広く使用されている4つの公開データセットに対してトレーニングおよび評価を行い,既存の複雑なモデルに匹敵する精度を実現する。
参考スコア（独自算出の注目度）: 10.9750512044649
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the field of crowd counting research, many recent deep learning based methods have demonstrated robust capabilities for accurately estimating crowd sizes. However, the enhancement in their performance often arises from an increase in the complexity of the model structure. This paper discusses how to construct high-performance crowd counting models using only simple structures. We proposes the Fuss-Free Network (FFNet) that is characterized by its simple and efficieny structure, consisting of only a backbone network and a multi-scale feature fusion structure. The multi-scale feature fusion structure is a simple structure consisting of three branches, each only equipped with a focus transition module, and combines the features from these branches through the concatenation operation. Our proposed crowd counting model is trained and evaluated on four widely used public datasets, and it achieves accuracy that is comparable to that of existing complex models. Furthermore, we conduct a comprehensive evaluation by replacing the existing backbones of various models such as FFNet and CCTrans with different networks, including MobileNet-v3, ConvNeXt-Tiny, and Swin-Transformer-Small. The experimental results further indicate that excellent crowd counting performance can be achieved with the simplied structure proposed by us.
Abstract（参考訳）: 群集カウント研究の分野では,近年の深層学習に基づく手法の多くが,群集サイズを正確に推定する頑健な能力を実証している。しかし、それらの性能の向上は、しばしばモデル構造の複雑さの増大から生じる。本稿では,単純な構造のみを用いて,高性能なクラウドカウントモデルを構築する方法について論じる。本稿では,バックボーンネットワークとマルチスケール機能融合構造のみからなる,そのシンプルで効率的な構造を特徴とするFuss-Free Network(FFNet)を提案する。マルチスケールの特徴融合構造は3つの分岐からなる単純な構造であり、それぞれに焦点遷移モジュールのみを備えており、結合操作によってこれらの分岐の特徴を組み合わせる。提案するクラウドカウントモデルは,広く使用されている4つの公開データセットに対してトレーニングおよび評価を行い,既存の複雑なモデルに匹敵する精度を実現する。さらに, FFNet や CCTrans などの既存のバックボーンを MobileNet-v3, ConvNeXt-Tiny, Swin-Transformer-Small など様々なネットワークに置き換えることで, 包括的評価を行う。さらに, 提案した簡易構造を用いて, 優れた群集カウント性能を達成できることが実験的に示唆された。

関連論文リスト

StructVRM: Aligning Multimodal Reasoning with Structured and Verifiable Reward Models [25.345348726907854]
StructVRMは、マルチモーダル推論をStructudおよびVerifiable Reward Modelsと整合させる手法である。その中核は、きめ細かいサブクエストレベルのフィードバックを提供するために訓練されたモデルベースの検証器である。トレーニングされたモデルSeed-StructVRMは、12の公開マルチモーダルベンチマークのうち6つの最先端のパフォーマンスと、新たにキュレートされた高微分型STEM-Benchを実現しています。
論文参考訳（メタデータ） (2025-08-07T13:31:21Z)
LargeMvC-Net: Anchor-based Deep Unfolding Network for Large-scale Multi-view Clustering [13.805932688128053]
LargeMvC-Netは、アンカーベースのマルチビュークラスタリングのための新しいディープネットワークアーキテクチャである。提案したモデルは,アンカーベースのクラスタリングプロセスを3つのモジュールに分解する。いくつかの大規模マルチビューベンチマークの実験では、LargeMvC-Netは、有効性とスケーラビリティの両方の観点から、最先端の手法を一貫して上回っている。
論文参考訳（メタデータ） (2025-07-28T16:43:11Z)
Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文参考訳（メタデータ） (2025-06-13T14:29:40Z)
Elucidating the Design Space of Multimodal Protein Language Models [69.3650883370033]
マルチモーダルタンパク質言語モデル(PLM)は、シーケンスとトークンに基づく構造情報を統合する。本稿では,マルチモーダルPLMの設計空間を体系的に解明し,その限界を克服する。我々の進歩はよりきめ細かな監督にアプローチし、トークンベースのマルチモーダルPLMが堅牢な構造モデリングを実現することを実証する。
論文参考訳（メタデータ） (2025-04-15T17:59:43Z)
MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval [73.77101139365912]
効率的なクロスレゾリューションモデリングのための線形計算複雑性を持つマルチスケールマンバであるMUSEを提案する。具体的には、最後の単一スケールのフィーチャーマップに特徴ピラミッドを適用することで、マルチスケールの表現を生成する。我々は,Mamba構造を効率的なマルチスケール学習者として用いて,スケールワイド表現を共同学習する。
論文参考訳（メタデータ） (2024-08-20T06:30:37Z)
ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models [65.82630283336051]
拡散生成モデルの既存のトレーニングスキームにより,次元と属性の組み合わせによって区切られた空間が十分に標本化されていないことを示す。構造を完全に活用するプロセスを構築し,ComboStocという名前でこの問題に対処する。
論文参考訳（メタデータ） (2024-05-22T15:23:10Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Modular Blended Attention Network for Video Question Answering [1.131316248570352]
本稿では,再利用可能で構成可能なニューラルユニットを用いた問題解決手法を提案する。一般的に使用されている3つのデータセットについて実験を行った。
論文参考訳（メタデータ） (2023-11-02T14:22:17Z)
Unified Embedding: Battle-Tested Feature Representations for Web-Scale ML Systems [29.53535556926066]
高品質な機能埋め込みを効率よく効果的に学習することは、Webスケールの機械学習システムの性能にとって重要である。この作業では、シンプルだが効果的に機能するフレームワークであるFeature Multiplexingを導入し、1つの表現空間を多くの異なる分類的特徴にまたがって使用する。機能構成の簡略化,動的データ分散への適応性の向上,最新のハードウェアとの互換性の3つの大きなメリットを生かした,Unified Embeddingと呼ばれる高度に実践的なアプローチを提案する。
論文参考訳（メタデータ） (2023-05-20T05:35:40Z)
StrAE: Autoencoding for Pre-Trained Embeddings using Explicit Structure [5.2869308707704255]
StrAEは構造化オートエンコーダフレームワークであり、明示的な構造に厳格に固執することで、マルチレベル表現の効果的な学習を可能にする。本研究の結果は,入力として提供される構造に直接的な関連性があることを示し,既存のツリーモデルではそうではないことを示す。次に、StrAEを拡張して、単純なローカライズ・マージアルゴリズムを用いてモデルが独自の構成を定義する。
論文参考訳（メタデータ） (2023-05-09T16:20:48Z)
Discrete Latent Structure in Neural Networks [32.41642110537956]
このテキストは、離散的な潜在構造を持つ学習のための3つの広義の戦略を探求する。たいていは、同じ基本ブロックの小さなセットで構成されているが、それらが異なる使い方をしており、適用性や特性が著しく異なることを示している。
論文参考訳（メタデータ） (2023-01-18T12:30:44Z)
Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文参考訳（メタデータ） (2022-09-15T15:41:47Z)
Learning Prototype-oriented Set Representations for Meta-Learning [85.19407183975802]
集合構造データから学ぶことは、近年注目を集めている根本的な問題である。本稿では,既存の要約ネットワークを改善するための新しい最適輸送方式を提案する。さらに、少数ショット分類と暗黙的メタ生成モデリングの事例にインスタンス化する。
論文参考訳（メタデータ） (2021-10-18T09:49:05Z)
SetVAE: Learning Hierarchical Composition for Generative Modeling of Set-Structured Data [27.274328701618]
集合の階層的変分オートエンコーダであるSetVAEを提案する。セットエンコーディングの最近の進歩に動機づけられて、我々は最初にセットを分割し、元のカーディナリティにパーティションを投影する注意深いモジュールの上にSetVAEを構築します。我々は,本モデルが集合のサイズを示さずに一般化し,監督なしに興味深い部分集合関係を学習できることを実証する。
論文参考訳（メタデータ） (2021-03-29T14:01:18Z)
ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文参考訳（メタデータ） (2020-09-04T20:41:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。