Fugu-MT 論文翻訳(概要): ViCrop-Det: Spatial Attention Entropy Guided Cropping for Training-Free Small-Object Detection

論文の概要: ViCrop-Det: Spatial Attention Entropy Guided Cropping for Training-Free Small-Object Detection

arxiv url: http://arxiv.org/abs/2604.26806v1
Date: Wed, 29 Apr 2026 15:35:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-30 15:59:36.463481
Title: ViCrop-Det: Spatial Attention Entropy Guided Cropping for Training-Free Small-Object Detection
Title（参考訳）: ViCrop-Det:無訓練小物体検出のための空間的注意エントロピーガイドクロップ
Authors: Hui Wang, Hongze Li, Wei Chen, Xiaojin Zhang,
Abstract要約: ViCrop-Detは、適応的な空間信頼領域収縮を導入する、トレーニング不要な推論フレームワークである。 RT-DETR-R50 と Deformable DETR に +1-3 mAP@50 を連続的に追加し,20-23% の遅延オーバヘッドを有することを示す。計算マッチング設定下では、適応的ルーティング戦略は、一様スライシングベースラインを包括的に超越し、高度に最適化された精度-速度トレードオフを実現する。
参考スコア（独自算出の注目度）: 6.1221124436192875
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based architectures have established a dominant paradigm in global semantic perception; however, they remain fundamentally constrained by the profound spatial heterogeneity inherent in natural images. Specifically, the imposition of a uniform global receptive field across regions of varying information density inevitably leads to local feature degradation, particularly in dense conflict zones populated by microscopic targets. To address this mechanistic limitation, we propose ViCrop-Det, a training-free inference framework that introduces adaptive spatial trust region shrinkage. Inspired by the use of attention entropy in anomaly segmentation, ViCrop-Det leverages the detection decoder's cross-attention distribution as an endogenous probe. By utilizing Spatial Attention Entropy (SAE) to heuristically evaluate local spatial ambiguity, the framework executes dynamic spatial routing, allocating a fixed computational budget exclusively to regions exhibiting both high target saliency and high cognitive uncertainty. By shrinking the spatial trust region and injecting high-frequency localized observations, ViCrop-Det actively resolves spatial ambiguity and recovers fine-grained features without requiring architectural modifications. Extensive evaluations on VisDrone and DOTA-v1.5 demonstrate that ViCrop-Det yields competitive performance enhancements, consistently adding +1-3 mAP@50 to RT-DETR-R50 and Deformable DETR with a marginal 20-23\% latency overhead. On MS COCO, $AP_{S}$ improves while $AP_{M}/AP_{L}$ remains stable, indicating precise fine-scale refinement without compromising the global spatial prior. Under compute-matched settings, our adaptive routing strategy comprehensively surpasses uniform slicing baselines, achieving a highly optimized accuracy-speed trade-off.
Abstract（参考訳）: トランスフォーマーに基づくアーキテクチャは、グローバルな意味知覚において支配的なパラダイムを確立してきたが、それらは、自然画像に固有の深い空間的不均一性によって、根本的な制約を受け続けている。具体的には、様々な情報密度の領域に一様大域的受容場を配置することで、特に微視的標的が集結する密集した紛争帯において、必然的に局所的な特徴劣化を引き起こす。この機械的制限に対処するため,適応型空間信頼領域縮小を導入したトレーニングフリー推論フレームワークViCrop-Detを提案する。異常セグメンテーションにおけるアテンションエントロピーの使用にインスパイアされたViCrop-Detは、内因性プローブとして検出デコーダのクロスアテンション分布を利用する。空間的意図エントロピー(SAE)を用いて局所的空間的あいまいさをヒューリスティックに評価することにより、動的空間的ルーティングを実行し、高い目標値と高い認知的不確実性の両方を示す領域のみに固定された計算予算を割り当てる。空間信頼領域を縮小し、高周波局所化観測を注入することにより、ViCrop-Detは空間の曖昧さを積極的に解決し、アーキテクチャ変更を必要とせずに微細な特徴を回復する。 VisDroneとDOTA-v1.5の大規模な評価は、ViCrop-Detが競争性能を向上し、RT-DETR-R50とDeformable DETRに+1-3 mAP@50を連続的に追加し、20-23\%のレイテンシオーバーヘッドが限界となることを示している。 MS COCOでは、$AP_{S}$は改善されるが、$AP_{M}/AP_{L}$は安定であり、グローバル空間の先行性を損なうことなく、正確に精密な微細化が示される。計算マッチング設定下では、適応的ルーティング戦略は、一様スライシングベースラインを包括的に超越し、高度に最適化された精度-速度トレードオフを実現する。

関連論文リスト

MRGeo: Robust Cross-View Geo-Localization of Corrupted Images via Spatial and Channel Feature Enhancement [15.9788448312641]
クロスビュージオローカライゼーション (CVGL) は、対応するジオタグ付き衛星画像の検索により、ストリートビュー画像を正確にローカライズすることを目的としている。以前の研究は、特定の標準データセット上でほぼ完璧なパフォーマンスを達成したが、現実の腐敗した環境での堅牢性は、まだ未調査のままである。汚職下での堅牢なCVGLのための最初の体系的手法であるMRGeoを紹介する。
論文参考訳（メタデータ） (2026-03-13T02:37:43Z)
OCTOPUS: Enhancing the Spatial-Awareness of Vision SSMs with Multi-Dimensional Scans and Traversal Selection [20.717476762904038]
我々は,大域的コンテキストと画像内の局所空間構造の両方を保存する新しいアーキテクチャであるOCTOPUSを紹介する。 OCTOPUSは8つの主方向に沿って個別に再起し、水平方向、垂直方向、対角方向を前方または後方に進む。分類とセグメンテーションのベンチマークでは、OCTOPUSは境界保存と領域の整合性において顕著な改善を示した。
論文参考訳（メタデータ） (2026-01-31T21:12:59Z)
Spatially-Adaptive Conformal Graph Transformer for Indoor Localization in Wi-Fi Driven Networks [2.3284243982999615]
空間適応型コンフォーマルグラフ変換器 (SAC-GT) は, 高精度で信頼性の高い屋内ローカライゼーションのためのフレームワークである。 SAC-GTは、ネットワークの空間トポロジと信号強度のダイナミクスを捉えるグラフトランスフォーマー(GT)モデルと、新しい空間適応型コンフォーマル予測(SACP)手法を統合する。これにより、SAC-GTは正確な2次元位置予測だけでなく、様々な環境条件に合わせて統計的に有効な信頼領域を生成することができる。
論文参考訳（メタデータ） (2026-01-29T21:06:45Z)
RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-29T12:35:57Z)
UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction [83.48950950780554]
リモートセンシング画像からの抽出は、複雑な構造変化のために難しい課題である。既存の方法は、セグメンテーションモデルにおけるマルチスケール特徴をキャプチャするために、畳み込みブロックまたは自己アテンションブロックを使用する。高品質なグローバルローカルなビジュアルセマンティクスを活用するために,不確実性集約型グローバルローカルフュージョンネットワーク(UAGLNet)を提案する。
論文参考訳（メタデータ） (2025-12-15T02:59:16Z)
Deep Equilibrium Convolutional Sparse Coding for Hyperspectral Image Denoising [16.405355853358202]
ハイパースペクトル画像(HSI)はリモートセンシングにおいて重要な役割を果たすが、複雑なノイズパターンによって劣化することが多い。分解されたHSIの物理的特性の確保は、強靭なHSIの分解に不可欠であり、深層展開法が台頭する。本研究では,局所的空間スペクトル相関,非局所的空間自己相似性,大域的空間一貫性を統一するDeep Equilibrium Convolutional Sparse Coding(DECSC)フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-21T13:35:11Z)
ACMamba: Fast Unsupervised Anomaly Detection via An Asymmetrical Consensus State Space Model [51.83639270669481]
ハイパースペクトル画像(HSI)における教師なし異常検出は、背景から未知のターゲットを検出することを目的としている。 HSI研究は、HSIの高次元特性と高密度サンプリングベーストレーニングパラダイムにより、計算コストの急激さによって妨げられている。計算コストを大幅に削減する非対称コンセンサス状態空間モデル(ACMamba)を提案する。
論文参考訳（メタデータ） (2025-04-16T05:33:42Z)
Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。 CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文参考訳（メタデータ） (2025-04-15T10:42:25Z)
CPR++: Object Localization via Single Coarse Point Supervision [55.8671776333499]
粗い点修正(CPR)は、アルゴリズムの観点からの意味的分散を緩和する最初の試みである。 CPRは、アノテートされた最初のポイントを置き換えるために、近隣地域のセマンティックセンターポイントを選択することで意味のばらつきを減らす。 CPR++は、スケール情報を取得し、グローバル領域における意味的分散をさらに低減することができる。
論文参考訳（メタデータ） (2024-01-30T17:38:48Z)
Semi-signed neural fitting for surface reconstruction from unoriented point clouds [53.379712818791894]
より優れた符号付き距離場を再構成するためのSN-Fittingを提案する。 SSNフィッティングは半署名の監督と損失に基づく領域サンプリング戦略で構成されている。我々は,SSN-Fittingが,異なる設定下で最先端の性能を達成することを示す実験を行う。
論文参考訳（メタデータ） (2022-06-14T09:40:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。