論文の概要: UHR-DETR: Efficient End-to-End Small Object Detection for Ultra-High-Resolution Remote Sensing Imagery
- arxiv url: http://arxiv.org/abs/2604.21435v1
- Date: Thu, 23 Apr 2026 08:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.393572
- Title: UHR-DETR: Efficient End-to-End Small Object Detection for Ultra-High-Resolution Remote Sensing Imagery
- Title(参考訳): UHR-DETR:超高分解能リモートセンシングのための高速端端端端検出
- Authors: Jingfang Li, Haoran Zhu, Wen Yang, Jinrui Zhang, Fang Xu, Haijian Zhang, Gui-Song Xia,
- Abstract要約: UHR(Ultra-High-Resolution)画像は、現代のリモートセンシングにおいて必須であり、前例のない空間的カバレッジを提供する。
UHR画像のための効率的なエンドツーエンドトランス素子であるUHR-DETRを提案する。
- 参考スコア(独自算出の注目度): 42.79842185486837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultra-High-Resolution (UHR) imagery has become essential for modern remote sensing, offering unprecedented spatial coverage. However, detecting small objects in such vast scenes presents a critical dilemma: retaining the original resolution for small objects causes prohibitive memory bottlenecks. Conversely, conventional compromises like image downsampling or patch cropping either erase small objects or destroy context. To break this dilemma, we propose UHR-DETR, an efficient end-to-end transformer-based detector designed for UHR imagery. First, we introduce a Coverage-Maximizing Sparse Encoder that dynamically allocates finite computational resources to informative high-resolution regions, ensuring maximum object coverage with minimal spatial redundancy. Second, we design a Global-Local Decoupled Decoder. By integrating macroscopic scene awareness with microscopic object details, this module resolves semantic ambiguities and prevents scene fragmentation. Extensive experiments on the UHR imagery datasets (e.g., STAR and SODA-A) demonstrate the superiority of UHR-DETR under strict hardware constraints (e.g., a single 24GB RTX 3090). It achieves a 2.8\% mAP improvement while delivering a 10$\times$ inference speedup compared to standard sliding-window baselines on the STAR dataset. Our codes and models will be available at https://github.com/Li-JingFang/UHR-DETR.
- Abstract(参考訳): UHR(Ultra-High-Resolution)画像は、現代のリモートセンシングにおいて必須であり、前例のない空間的カバレッジを提供する。
しかし、このような広大なシーンで小さな物体を検出することは重要なジレンマとなり、小さな物体に対する元の解像度を維持することで、メモリのボトルネックが禁止される。
逆に、イメージダウンサンプリングやパッチトリッピングといった従来の妥協は、小さなオブジェクトを消去するか、コンテキストを破棄する。
このジレンマを断ち切るために、UHR画像用に設計された効率的なエンドツーエンドトランスフォーマーベースの検出器であるUHR-DETRを提案する。
まず,有限計算資源を高分解能領域に動的に割り当て,空間冗長性を最小限に抑えた最大対象範囲を確保できるカバレッジ最大化スパースエンコーダを提案する。
次に,グローバルローカルデカップリングデコーダを設計する。
マクロなシーン認識と顕微鏡的なオブジェクトの詳細を統合することで、このモジュールは意味的曖昧さを解消し、シーンの断片化を防ぐ。
UHRデータセット(例:STAR、SODA-A)の大規模な実験は、厳密なハードウェア制約下でのUHR-DETRの優位性を示している(例:24GB RTX 3090)。
STARデータセットの標準スライディングウインドウベースラインと比較して、10$\times$推論スピードアップを提供しながら、2.8\%のmAP改善を実現している。
私たちのコードとモデルはhttps://github.com/Li-JingFang/UHR-DETR.comで公開されます。
関連論文リスト
- High-Frequency Semantics and Geometric Priors for End-to-End Detection Transformers in Challenging UAV Imagery [6.902247657565531]
本稿では,空中シーンに適したリアルタイム検出変換器であるHEDS-DETRを紹介する。
まず,高周波数拡張セマンティックスネットワーク(HFESNet)のバックボーンを提案する。
第2に、高分解能特徴を効率的に融合させることにより、情報損失に対処する。
第三に、2つの相乗的成分を用いてデコーダの安定性と位置決め精度を向上させる。
論文 参考訳(メタデータ) (2025-07-01T14:56:56Z) - HRDecoder: High-Resolution Decoder Network for Fundus Image Lesion Segmentation [12.606794661369959]
骨盤病変分割のための簡易高分解能デコーダネットワークHRDecoderを提案する。
高精細な局所的特徴を捉えるための高精細な表現学習モジュールと、マルチスケールの予測を融合する高精細な融合モジュールを統合している。
本手法は, 適正なメモリと計算オーバーヘッドを消費し, 推論速度の満足度を維持しながら, 足底部病変の全体的なセグメンテーション精度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-11-06T15:13:31Z) - PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。
HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。
すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文 参考訳(メタデータ) (2024-08-02T09:31:21Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Memory-augmented Deep Unfolding Network for Guided Image
Super-resolution [67.83489239124557]
誘導画像超解像(GISR)は、HR画像の誘導の下で低解像度(LR)目標画像の空間分解能を高めて高解像度(HR)目標画像を得る。
従来のモデルベース手法は主に画像全体を取り、HR目標画像とHRガイダンス画像との事前分布を仮定する。
HR目標画像上で2種類の事前性を持つGISRの最大後部(MAP)推定モデルを提案する。
論文 参考訳(メタデータ) (2022-02-12T15:37:13Z) - FOVEA: Foveated Image Magnification for Autonomous Navigation [53.69803081925454]
入力キャンバスを小さく保ちながら、ある領域を弾性的に拡大する注意的アプローチを提案する。
提案手法は,高速R-CNNより高速かつ微調整の少ない検出APを高速化する。
Argoverse-HD と BDD100K の自律走行データセットでは,提案手法が標準の高速 R-CNN を超越した検出APを微調整なしで促進することを示す。
論文 参考訳(メタデータ) (2021-08-27T03:07:55Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - SCRDet++: Detecting Small, Cluttered and Rotated Objects via
Instance-Level Feature Denoising and Rotation Loss Smoothing [131.04304632759033]
小さくて散らばった物体は実世界では一般的であり、検出は困難である。
本稿では,まず,物体検出にデノナイズするアイデアを革新的に紹介する。
機能マップ上のインスタンスレベルの記述は、小さくて散らばったオブジェクトの検出を強化するために行われる。
論文 参考訳(メタデータ) (2020-04-28T06:03:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。