論文の概要: Adaptive Slicing-Assisted Hyper Inference for Enhanced Small Object Detection in High-Resolution Imagery
- arxiv url: http://arxiv.org/abs/2604.19233v1
- Date: Tue, 21 Apr 2026 08:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.690101
- Title: Adaptive Slicing-Assisted Hyper Inference for Enhanced Small Object Detection in High-Resolution Imagery
- Title(参考訳): 高解像度画像における適応スライシング支援ハイパー推論による小型物体検出の高速化
- Authors: Francesco Moretti, Yi Jin, Guiqin Mario,
- Abstract要約: 高解像度の空中・衛星画像における小さな物体検出は、重大な課題を引き起こす。
高解像度画像を管理可能なパッチに分割する既存のスライシング戦略は、小さなターゲットの効果的な受容領域を拡大する有望な結果を示している。
画像解像度に応じて最適なスライス数を適応的に決定するために、固定スライスサイズを規定するパラダイムをシフトする新しいスライスフレームワークであるtextbf Slicing-Assisted Hyper Inference()を提案する。
- 参考スコア(独自算出の注目度): 6.357863553117842
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep learning-based object detectors have achieved remarkable success across numerous computer vision applications, yet they continue to struggle with small object detection in high-resolution aerial and satellite imagery, where dense object distributions, variable shooting angles, diminutive target sizes, and substantial inter-class variability pose formidable challenges. Existing slicing strategies that partition high-resolution images into manageable patches have demonstrated promising results for enlarging the effective receptive field of small targets; however, their reliance on fixed slice dimensions introduces significant redundant computation, inflating inference cost and undermining detection speed. In this paper, we propose \textbf{Adaptive Slicing-Assisted Hyper Inference (ASAHI)}, a novel slicing framework that shifts the paradigm from prescribing a fixed slice size to adaptively determining the optimal number of slices according to image resolution, thereby substantially mitigating redundant computation while preserving beneficial overlap between adjacent patches. ASAHI integrates three synergistic components: (1)an adaptive resolution-aware slicing algorithm that dynamically generates 6 or 12 overlapping patches based on a learned threshold, (2)a slicing-assisted fine-tuning (SAF) strategy that constructs augmented training data comprising both full-resolution and sliced image patches, and (3)a Cluster-DIoU-NMS (CDN) post-processing module that combines the geometric merging efficiency of Cluster-NMS with the center-distance-aware suppression of DIoU-NMS to achieve robust duplicate elimination in crowded scenes. Extensive experiments on VisDrone2019 and xView, demonstrate that ASAHI achieves state-of-the-art performance with 56.8% on VisDrone2019-DET-val and 22.7% on xView-test, while reducing inference time by 20-25% compared to the baseline SAHI method.
- Abstract(参考訳): 深層学習に基づく物体検出器は、多数のコンピュータビジョンアプリケーションで顕著な成功を収めてきたが、高解像度の空中・衛星画像では、高密度の物体分布、可変撮影角度、最小限の目標サイズ、およびクラス間変動が深刻な課題を生じているため、小さな物体検出に苦慮し続けている。
高解像度画像を管理可能なパッチに分割する既存のスライシング戦略は、小さなターゲットの有効受容領域を拡大する有望な結果を示しているが、固定スライス次元への依存は、大きな冗長な計算、推論コストの膨らみ、検出速度の低下をもたらす。
本稿では,固定スライスサイズを規定するから,画像解像度に応じて最適なスライス数を適応的に決定する,新たなスライスフレームワークであるtextbf{Adaptive Slicing-Assisted Hyper Inference (ASAHI)を提案する。
ASAHIは,(1)学習しきい値に基づいて6ないし12の重なり合うパッチを動的に生成する適応分解能認識スライシングアルゴリズム,(2)フル解像度とスライスされたイメージパッチの両方からなる強化トレーニングデータを構成するスライシング支援微調整(SAF)戦略,(3)クラスタ-DIoU-NMS(CDN)ポストプロセッシングモジュール,(3)クラスタ-NMSの幾何学的マージ効率とDIoU-NMSの中心距離認識抑制を組み合わせて,混雑したシーンにおける堅牢な重複除去を実現するためのクラスタ-DIoU-NMS(CDN)ポストプロセッシングモジュールの3つの相乗的コンポーネントを統合した。
VisDrone2019とxViewに関する大規模な実験では、ASAHIが最先端のパフォーマンスを56.8%、VisDrone2019-DET-valが22.7%、xView-testが22.7%で達成した。
関連論文リスト
- UFO-DETR: Frequency-Guided End-to-End Detector for UAV Tiny Objects [7.1136620172045]
UAV画像の小さなターゲット検出は、スケールのばらつき、密度分布、小さなターゲットの優位性といった重要な課題に直面している。
本稿では、LSKNetベースのバックボーンネットワークを統合して、受容場を最適化し、パラメータ数を削減できる、エンドツーエンドのオブジェクト検出フレームワークUFO-DETRを提案する。
論文 参考訳(メタデータ) (2026-02-26T07:37:45Z) - Fast and Accurate Gigapixel Pathological Image Classification with Hierarchical Distillation Multi-Instance Learning [51.525891360380285]
HDMILは階層的な蒸留マルチインスタンス学習フレームワークであり、無関係なパッチを排除して高速かつ正確な分類を実現する。
HDMILは、動的マルチインスタンスネットワーク(DMIN)と軽量インスタンスプレスクリーンネットワーク(LIPN)の2つの重要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2025-02-28T15:10:07Z) - SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer [62.11796778482088]
本稿では,近接撮影とHRW撮影のオブジェクト検出のギャップを埋めるために,SparseFormerと呼ばれるモデル非依存のスパース視覚変換器を提案する。
提案されたSparseFormerは、オブジェクトを含む可能性のあるスパース分散ウィンドウを精査するために、注意トークンを選択的に使用する。
2つのHRWベンチマークであるPANDAとDOTA-v1.0の実験により、提案されたSparseFormerは、最先端のアプローチよりも検出精度(最大5.8%)と速度(最大3倍)を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-02-11T03:21:25Z) - Efficient Feature Fusion for UAV Object Detection [9.632727117779178]
特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。
既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。
本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-29T20:39:16Z) - ATASI-Net: An Efficient Sparse Reconstruction Network for Tomographic
SAR Imaging with Adaptive Threshold [13.379416816598873]
本稿では,解析的反復収縮しきい値決定アルゴリズム(ALISTA)に基づく,効率的なスパース展開ネットワークを提案する。
ATASI-Netの各層における重み行列は、オフライン最適化問題の解法として事前計算される。
さらに、各方位領域画素に対して適応しきい値を導入し、しきい値収縮を層蒸着だけでなく素子的にも可能とする。
論文 参考訳(メタデータ) (2022-11-30T09:55:45Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。