論文の概要: HMPE:HeatMap Embedding for Efficient Transformer-Based Small Object Detection
- arxiv url: http://arxiv.org/abs/2504.13469v1
- Date: Fri, 18 Apr 2025 05:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 19:11:48.032805
- Title: HMPE:HeatMap Embedding for Efficient Transformer-Based Small Object Detection
- Title(参考訳): HMPE:高効率変圧器を用いた小型物体検出のためのHeatMap埋め込み
- Authors: YangChen Zeng,
- Abstract要約: 本稿では,新しいトランスフォーマー最適化手法であるHeatMap Position Embedding (HMPE)を紹介する。
HMPEは熱マップ誘導適応学習により位置符号化と意味検出情報を動的に統合する。
HMPEエンハンス埋め込みを利用することで,デコーダ層を8層から3層に減らし,推論とトレーニングのコストを大幅に削減できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Transformer-based methods for small object detection continue emerging, yet they have still exhibited significant shortcomings. This paper introduces HeatMap Position Embedding (HMPE), a novel Transformer Optimization technique that enhances object detection performance by dynamically integrating positional encoding with semantic detection information through heatmap-guided adaptive learning.We also innovatively visualize the HMPE method, offering clear visualization of embedded information for parameter fine-tuning.We then create Multi-Scale ObjectBox-Heatmap Fusion Encoder (MOHFE) and HeatMap Induced High-Quality Queries for Decoder (HIDQ) modules. These are designed for the encoder and decoder, respectively, to generate high-quality queries and reduce background noise queries.Using both heatmap embedding and Linear-Snake Conv(LSConv) feature engineering, we enhance the embedding of massively diverse small object categories and reduced the decoder multihead layers, thereby accelerating both inference and training.In the generalization experiments, our approach outperforme the baseline mAP by 1.9% on the small object dataset (NWPU VHR-10) and by 1.2% on the general dataset (PASCAL VOC). By employing HMPE-enhanced embedding, we are able to reduce the number of decoder layers from eight to a minimum of three, significantly decreasing both inference and training costs.
- Abstract(参考訳): 現在のTransformerベースの小さなオブジェクト検出手法はいまだに出現しているが、重大な欠点をみせている。
本稿では,HMPE(HeatMap Position Embedding)を提案する。HMPEは,熱マップ誘導適応学習(Heatmap-Guided Adaptive Learning)により,動的に位置符号化と意味検出情報を統合することで,オブジェクト検出性能を向上させる新しい手法である。また,パラメータの微調整のための埋め込み情報の明確な可視化を行うHMPE法を革新的に可視化し,マルチスケールオブジェクトボックス・ヒートマップフュージョンエンコーダ(MOHFE)とHeatMap によるデコーダ(HIDQ)モジュールの高品質クエリを生成する。
熱マップ埋め込みとLinear-Snake Conv(LSConv)機能エンジニアリングの両方を用いて,多種多様な小さなオブジェクトカテゴリの埋め込みを強化し,デコーダのマルチヘッド層を削減し,推論とトレーニングの両方を高速化する。一般化実験では,ベースラインmAPを小オブジェクトデータセット(NWPU VHR-10)で1.9%,一般データセット(PASCAL VOC)で1.2%向上させる。
HMPEエンハンス埋め込みを利用することで,デコーダ層を8層から3層に減らし,推論とトレーニングのコストを大幅に削減できる。
関連論文リスト
- Purifying, Labeling, and Utilizing: A High-Quality Pipeline for Small Object Detection [83.90563802153707]
PLUSNetは高品質のSmallオブジェクト検出フレームワークである。
上流の特徴を浄化するための階層的特徴(HFP)フレームワーク、中流トレーニングサンプルの品質を改善するための多重基準ラベル割り当て(MCLA)、下流タスクを達成するためにより効果的に情報を活用するための周波数分離ヘッド(FDHead)の3つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2025-04-29T10:11:03Z) - DOEI: Dual Optimization of Embedding Information for Attention-Enhanced Class Activation Maps [30.53564087005569]
弱教師付きセマンティックセグメンテーション(WSSS)は、典型的には限定的なセマンティックアノテーションを使用して、初期クラスアクティベーションマップ(CAM)を取得する。
クラスアクティベーション応答と高次元空間のセマンティック情報との結合が不十分なため、CAMはオブジェクト共起や不活性化の傾向にある。
本稿では,意味認識重み行列を用いて埋め込み表現を再構成する新しい手法である,埋め込み情報のデュアル最適化であるDOEIを提案する。
論文 参考訳(メタデータ) (2025-02-21T19:06:01Z) - LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection [63.780355815743135]
リアルタイム物体検出においてYOLOよりも優れた軽量検出変換器LW-DETRを提案する。
アーキテクチャは、ViTエンコーダ、プロジェクタ、浅いDETRデコーダの単純なスタックである。
論文 参考訳(メタデータ) (2024-06-05T17:07:24Z) - Introducing a microstructure-embedded autoencoder approach for reconstructing high-resolution solution field data from a reduced parametric space [0.0]
我々は,パラメトリック空間情報を標準オートエンコーダアーキテクチャに組み込むことで,低忠実度解写像を高忠実度に変換する新しい多忠実深層学習手法を開発した。
パラメトリック空間情報の統合により、低忠実度から高忠実度解を効果的に予測するためのトレーニングデータの必要性が大幅に低減される。
論文 参考訳(メタデータ) (2024-05-03T10:00:36Z) - Minimalist and High-Performance Semantic Segmentation with Plain Vision
Transformers [10.72362704573323]
トランス層に加えて,3$Times$3の畳み込みのみで構成されるモデルであるPlainSegを導入する。
また,階層的特徴の活用を可能にするPlainSeg-Hierを提案する。
論文 参考訳(メタデータ) (2023-10-19T14:01:40Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and
Transformer-Based Method [51.30748775681917]
低照度画像強調(LLIE)の課題を考察し,4K解像度と8K解像度の画像からなる大規模データベースを導入する。
我々は、系統的なベンチマーク研究を行い、現在のLLIEアルゴリズムと比較する。
第2のコントリビューションとして,変換器をベースとした低照度化手法であるLLFormerを紹介する。
論文 参考訳(メタデータ) (2022-12-22T09:05:07Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - TRACER: Extreme Attention Guided Salient Object Tracing Network [3.2434811678562676]
本稿では,注意誘導型トレーシングモジュールを組み込んで,鮮明なエッジで有意な物体を検出するTRACERを提案する。
13の既存手法との比較により、TRACERは5つのベンチマークデータセットで最先端のパフォーマンスを達成することが明らかになった。
論文 参考訳(メタデータ) (2021-12-14T13:20:07Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。