Fugu-MT 論文翻訳(概要): Learning Where to Embed: Noise-Aware Positional Embedding for Query Retrieval in Small-Object Detection

論文の概要: Learning Where to Embed: Noise-Aware Positional Embedding for Query Retrieval in Small-Object Detection

arxiv url: http://arxiv.org/abs/2604.15065v1
Date: Thu, 16 Apr 2026 14:28:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-17 21:29:31.945808
Title: Learning Where to Embed: Noise-Aware Positional Embedding for Query Retrieval in Small-Object Detection
Title（参考訳）: 埋め込み場所の学習:小型物体検出におけるクエリ検索のための雑音認識位置埋め込み
Authors: Yangchen Zeng, Zhenyu Yu, Dongming Jiang, Wenbo Zhang, Yifan Hong, Zhanhua Hu, Jiao Luo, Kangning Cui,
Abstract要約: トランスフォーマーをベースとした検出器は、より高度な小物体検出を行うが、しばしば非効率であり、バックグラウンドによって引き起こされるクエリノイズに弱い。本稿では,位置情報をどこに埋め込むかを研究する,ノイズ認識型位置意味融合フレームワークHELPを提案する。 HELPではコア埋め込み機構としてHeatmap-Guided Positional Embedding (HPE)を導入し,診断・微調整のためのヒートバーで可視化する。
参考スコア（独自算出の注目度）: 2.2251429968996947
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based detectors have advanced small-object detection, but they often remain inefficient and vulnerable to background-induced query noise, which motivates deep decoders to refine low-quality queries. We present HELP (Heatmap-guided Embedding Learning Paradigm), a noise-aware positional-semantic fusion framework that studies where to embed positional information by selectively preserving positional encodings in foreground-salient regions while suppressing background clutter. Within HELP, we introduce Heatmap-guided Positional Embedding (HPE) as the core embedding mechanism and visualize it with a heatbar for interpretable diagnosis and fine-tuning. HPE is integrated into both the encoder and decoder: it guides noise-suppressed feature encoding by injecting heatmap-aware positional encoding, and it enables high-quality query retrieval by filtering background-dominant embeddings via a gradient-based mask filter before decoding. To address feature sparsity in complex small targets, we integrate Linear-Snake Convolution to enrich retrieval-relevant representations. The gradient-based heatmap supervision is used during training only, incurring no additional gradient computation at inference. As a result, our design reduces decoder layers from eight to three and achieves a 59.4% parameter reduction (66.3M vs. 163M) while maintaining consistent accuracy gains under a reduced compute budget across benchmarks. Code Repository: https://github.com/yidimopozhibai/Noise-Suppressed-Query-Retrieval
Abstract（参考訳）: トランスフォーマーベースの検出器は、より高度な小さなオブジェクト検出を持つが、しばしば非効率で、バックグラウンドによって引き起こされるクエリノイズに弱いままであり、それによってディープデコーダが低品質なクエリを洗練させる動機となる。本研究では,背景クラッタを抑えつつ,前景空間における位置エンコーディングを選択的に保存し,位置情報をどこに埋め込むかを研究する,ノイズ対応型位置意味融合フレームワークHELPを提案する。 HELPではコア埋め込み機構としてHeatmap-Guided Positional Embedding (HPE)を導入し,診断・微調整のためのヒートバーで可視化する。 HPEはエンコーダとデコーダの両方に統合され、ヒートマップ対応の位置符号化を注入することでノイズ抑圧された特徴符号化を誘導し、デコード前にグラデーションベースのマスクフィルタを介してバックグラウンド優位な埋め込みをフィルタリングすることで高品質なクエリ検索を可能にする。複雑な小ターゲットの特徴空間に対処するため,Linear-Snake Convolutionを統合し,検索関連表現の強化を行う。勾配に基づく熱マップの監視はトレーニングのみに使用され、推論時に追加の勾配計算は発生しない。その結果,デコーダ層を8層から3層に減らし,59.4%のパラメータ削減(66.3M vs. 163M)を実現した。コードリポジトリ:https://github.com/yidimopozhibai/Noise-Suppressed-Query-Retrieval

論文の概要: Learning Where to Embed: Noise-Aware Positional Embedding for Query Retrieval in Small-Object Detection

関連論文リスト