論文の概要: Learning Where to Embed: Noise-Aware Positional Embedding for Query Retrieval in Small-Object Detection
- arxiv url: http://arxiv.org/abs/2604.15065v1
- Date: Thu, 16 Apr 2026 14:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.945808
- Title: Learning Where to Embed: Noise-Aware Positional Embedding for Query Retrieval in Small-Object Detection
- Title(参考訳): 埋め込み場所の学習:小型物体検出におけるクエリ検索のための雑音認識位置埋め込み
- Authors: Yangchen Zeng, Zhenyu Yu, Dongming Jiang, Wenbo Zhang, Yifan Hong, Zhanhua Hu, Jiao Luo, Kangning Cui,
- Abstract要約: トランスフォーマーをベースとした検出器は、より高度な小物体検出を行うが、しばしば非効率であり、バックグラウンドによって引き起こされるクエリノイズに弱い。
本稿では,位置情報をどこに埋め込むかを研究する,ノイズ認識型位置意味融合フレームワークHELPを提案する。
HELPではコア埋め込み機構としてHeatmap-Guided Positional Embedding (HPE)を導入し,診断・微調整のためのヒートバーで可視化する。
- 参考スコア(独自算出の注目度): 2.2251429968996947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based detectors have advanced small-object detection, but they often remain inefficient and vulnerable to background-induced query noise, which motivates deep decoders to refine low-quality queries. We present HELP (Heatmap-guided Embedding Learning Paradigm), a noise-aware positional-semantic fusion framework that studies where to embed positional information by selectively preserving positional encodings in foreground-salient regions while suppressing background clutter. Within HELP, we introduce Heatmap-guided Positional Embedding (HPE) as the core embedding mechanism and visualize it with a heatbar for interpretable diagnosis and fine-tuning. HPE is integrated into both the encoder and decoder: it guides noise-suppressed feature encoding by injecting heatmap-aware positional encoding, and it enables high-quality query retrieval by filtering background-dominant embeddings via a gradient-based mask filter before decoding. To address feature sparsity in complex small targets, we integrate Linear-Snake Convolution to enrich retrieval-relevant representations. The gradient-based heatmap supervision is used during training only, incurring no additional gradient computation at inference. As a result, our design reduces decoder layers from eight to three and achieves a 59.4% parameter reduction (66.3M vs. 163M) while maintaining consistent accuracy gains under a reduced compute budget across benchmarks. Code Repository: https://github.com/yidimopozhibai/Noise-Suppressed-Query-Retrieval
- Abstract(参考訳): トランスフォーマーベースの検出器は、より高度な小さなオブジェクト検出を持つが、しばしば非効率で、バックグラウンドによって引き起こされるクエリノイズに弱いままであり、それによってディープデコーダが低品質なクエリを洗練させる動機となる。
本研究では,背景クラッタを抑えつつ,前景空間における位置エンコーディングを選択的に保存し,位置情報をどこに埋め込むかを研究する,ノイズ対応型位置意味融合フレームワークHELPを提案する。
HELPではコア埋め込み機構としてHeatmap-Guided Positional Embedding (HPE)を導入し,診断・微調整のためのヒートバーで可視化する。
HPEはエンコーダとデコーダの両方に統合され、ヒートマップ対応の位置符号化を注入することでノイズ抑圧された特徴符号化を誘導し、デコード前にグラデーションベースのマスクフィルタを介してバックグラウンド優位な埋め込みをフィルタリングすることで高品質なクエリ検索を可能にする。
複雑な小ターゲットの特徴空間に対処するため,Linear-Snake Convolutionを統合し,検索関連表現の強化を行う。
勾配に基づく熱マップの監視はトレーニングのみに使用され、推論時に追加の勾配計算は発生しない。
その結果,デコーダ層を8層から3層に減らし,59.4%のパラメータ削減(66.3M vs. 163M)を実現した。
コードリポジトリ:https://github.com/yidimopozhibai/Noise-Suppressed-Query-Retrieval
関連論文リスト
- DoPE: Denoising Rotary Position Embedding [60.779039511252584]
トランスフォーマーモデルにおける回転位置埋め込み(RoPE)は、長さを弱める固有の限界を持つ。
ノイズのある特徴写像として位置符号化を用いたアテンションマップを再解釈し、位置補間ページ(DoPE)を提案する。
DoPEは、トランカテッド行列エントロピーに基づくトレーニング不要な手法であり、特徴写像における外乱周波数帯域を検出する。
論文 参考訳(メタデータ) (2025-11-12T09:32:35Z) - HMPE:HeatMap Embedding for Efficient Transformer-Based Small Object Detection [0.0]
本稿では,新しいトランスフォーマー最適化手法であるHeatMap Position Embedding (HMPE)を紹介する。
HMPEは熱マップ誘導適応学習により位置符号化と意味検出情報を動的に統合する。
HMPEエンハンス埋め込みを利用することで,デコーダ層を8層から3層に減らし,推論とトレーニングのコストを大幅に削減できる。
論文 参考訳(メタデータ) (2025-04-18T05:24:08Z) - A new baseline for edge detection: Make Encoder-Decoder great again [3.3171122239461193]
提案されたNew Baseline for Edge Detection (NBED)は、複数のエッジ検出ベンチマークで一貫してパフォーマンスを向上する。
BSDS500におけるNBEDのODSは0.838であり、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-09-23T12:54:38Z) - Learning to Make Keypoints Sub-Pixel Accurate [80.55676599677824]
本研究は,2次元局所特徴の検出におけるサブピクセル精度の課題に対処する。
本稿では,検出された特徴に対するオフセットベクトルを学習することにより,サブピクセル精度で検出器を拡張できる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T12:39:56Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。