論文の概要: Increasing the Efficiency of DETR for Maritime High-Resolution Images
- arxiv url: http://arxiv.org/abs/2605.10269v1
- Date: Mon, 11 May 2026 09:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.698045
- Title: Increasing the Efficiency of DETR for Maritime High-Resolution Images
- Title(参考訳): 海洋高分解能画像におけるDETRの効率向上
- Authors: Tinsae Yehuala, Hao Cheng, Ville Lehtola,
- Abstract要約: 海上物体検出は無人表面容器(USV)の安全な航行に不可欠である
リアルタイム検出は、長距離、小さなオブジェクトサイズ、大規模なバリエーション、エッジコンピューティングの制限、高解像度画像の高メモリ要求のために困難である。
Vision Mamba (ViM) のバックボーンを利用して、シーケンス長を線形にスケーリングしながら、長距離依存関係をキャプチャする。
本手法は,海洋オブジェクト検出における性能と計算効率のバランスを向上する。
- 参考スコア(独自算出の注目度): 4.035972767997811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maritime object detection is critical for the safe navigation of unmanned surface vessels (USVs), requiring accurate recognition of obstacles from small buoys to large vessels. Real-time detection is challenging due to long distances, small object sizes, large-scale variations, edge computing limitations, and the high memory demands of high-resolution imagery. Existing solutions, such as downsampling or image splitting, often reduce accuracy or require additional processing, while memory-efficient models typically handle only limited resolutions. To overcome these limitations, we leverage Vision Mamba (ViM) backbones, which build on State Space Models (SSMs) to capture long-range dependencies while scaling linearly with sequence length. Images are tokenized into sequences for efficient high-resolution processing. For further computational efficiency, we design a tailored Feature Pyramid Network with successive downsampling and SSM layers, as well as token pruning to reduce unnecessary computation on background regions. Compared to state-of-the-art methods like RT-DETR with ResNet50 backbone, our approach achieves a better balance between performance and computational efficiency in maritime object detection.
- Abstract(参考訳): 海上物体検出は無人表面船(USV)の安全な航行に不可欠であり、小さなブイから大きな船への障害物を正確に認識する必要がある。
リアルタイム検出は、長距離、小さなオブジェクトサイズ、大規模なバリエーション、エッジコンピューティングの制限、高解像度画像の高メモリ要求のために困難である。
ダウンサンプリングやイメージ分割といった既存のソリューションは、しばしば精度を低下させるか、追加の処理を必要とするが、メモリ効率のモデルは通常、限られた解像度しか処理しない。
これらの制限を克服するために、ViM(Vision Mamba)バックボーンを活用し、ステートスペースモデル(State Space Models, SSM)上に構築し、シーケンス長を線形にスケーリングしながら、長距離依存関係をキャプチャする。
画像は効率的な高解像度処理のためにシーケンスにトークン化される。
さらに計算効率を向上するため、連続的なダウンサンプリング層とSSM層を持つ特徴ピラミッドネットワークを設計し、背景領域での不要な計算を減らすためにトークンプルーニングを行う。
RT-DETRとResNet50のバックボーンのような最先端の手法と比較して,本手法は海洋オブジェクト検出における性能と計算効率のバランスを良くする。
関連論文リスト
- Lightweight CNNs for Embedded SAR Ship Target Detection and Classification [0.0]
高レベルの製品を生成するためのオンボード処理は、ダウンリンクが必要なデータ量を減らすことができる。
本研究では,非焦点SARデータに基づくリアルタイム推論のためのニューラルネットワークの提案と評価を行う。
論文 参考訳(メタデータ) (2025-08-14T14:55:19Z) - Q-MambaIR: Accurate Quantized Mamba for Efficient Image Restoration [34.43633070396096]
状態空間モデル(SSM)は、画像復元(IR)において大きな注目を集めている。
Q-MambaIRは、IRタスクのための正確で効率的で柔軟な量子マンバである。
論文 参考訳(メタデータ) (2025-03-27T20:34:11Z) - Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Memory-Constrained Semantic Segmentation for Ultra-High Resolution UAV
Imagery [35.96063342025938]
本稿では,超高解像度UAV画像の高効率・高効率セグメンテーションを実現するための複雑な課題について検討する。
本稿では、ローカルパッチ以外のコンテキストにアクセスすることなく、ローカル推論のためのGPUメモリ効率が高く効果的なフレームワークを提案する。
基礎となる高解像度情報の潜在的な意味バイアスを補正するために,効率的なメモリベースインタラクション方式を提案する。
論文 参考訳(メタデータ) (2023-10-07T07:44:59Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - SwiftSRGAN -- Rethinking Super-Resolution for Efficient and Real-time
Inference [0.0]
本稿では,メモリフットプリントの高速化と小型化を実現したアーキテクチャを提案する。
リアルタイムの超解像度により、帯域幅の低い条件下でも高解像度のメディアコンテンツをストリーミングできる。
論文 参考訳(メタデータ) (2021-11-29T04:20:15Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - Asymmetric CNN for image super-resolution [102.96131810686231]
深層畳み込みニューラルネットワーク(CNN)は、過去5年間で低レベルビジョンに広く適用されています。
画像超解像のための非対称ブロック(AB)、mem?ory拡張ブロック(MEB)、高周波数特徴強調ブロック(HFFEB)からなる非対称CNN(ACNet)を提案する。
我々のACNetは、ブラインドノイズの単一画像超解像(SISR)、ブラインドSISR、ブラインドSISRを効果的に処理できる。
論文 参考訳(メタデータ) (2021-03-25T07:10:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。