論文の概要: Combining Transformers and CNNs for Efficient Object Detection in High-Resolution Satellite Imagery
- arxiv url: http://arxiv.org/abs/2507.11040v1
- Date: Tue, 15 Jul 2025 07:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.011539
- Title: Combining Transformers and CNNs for Efficient Object Detection in High-Resolution Satellite Imagery
- Title(参考訳): 高解像度衛星画像における効率的な物体検出のための変圧器とCNNの組み合わせ
- Authors: Nicolas Drapier, Aladine Chetouani, Aurélien Chateigner,
- Abstract要約: GLODはCNNのバックボーンを、エンドツーエンドの機能抽出のためのSwin Transformerに置き換える。
提案手法は xView で 32.95% を達成し,SOTA 法を 11.46% 上回った。
- 参考スコア(独自算出の注目度): 4.182479434666187
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present GLOD, a transformer-first architecture for object detection in high-resolution satellite imagery. GLOD replaces CNN backbones with a Swin Transformer for end-to-end feature extraction, combined with novel UpConvMixer blocks for robust upsampling and Fusion Blocks for multi-scale feature integration. Our approach achieves 32.95\% on xView, outperforming SOTA methods by 11.46\%. Key innovations include asymmetric fusion with CBAM attention and a multi-path head design capturing objects across scales. The architecture is optimized for satellite imagery challenges, leveraging spatial priors while maintaining computational efficiency.
- Abstract(参考訳): 高解像度衛星画像における物体検出のためのトランスフォーマーファーストアーキテクチャであるGLODを提案する。
GLODはCNNのバックボーンを、エンドツーエンドの機能抽出のためのSwin Transformerに置き換え、堅牢なアップサンプリングのためのUpConvMixerブロックとマルチスケール機能統合のためのFusion Blocksを組み合わせたものだ。
提案手法は xView で 32.95 % を達成し,SOTA 法を 11.46 % で上回った。
主なイノベーションは、CBAMの注意を伴う非対称融合と、スケールを越えてオブジェクトをキャプチャするマルチパスヘッド設計である。
このアーキテクチャは衛星画像の課題に最適化されており、計算効率を保ちながら空間的先行性を活用している。
関連論文リスト
- Quantum Inverse Contextual Vision Transformers (Q-ICVT): A New Frontier in 3D Object Detection for AVs [4.378378863689719]
我々はQuantum Inverse Contextual Vision Transformer (Q-ICVT)と呼ばれる革新的な2段階融合プロセスを開発している。
このアプローチは、量子概念における断熱計算を利用して、Global Adiabatic Transformer (GAT)として知られる新しい可逆的視覚変換器を作成する。
実験の結果,Q-ICVTはL2障害に対して82.54mAPHを実現し,現状の核融合法よりも1.88%向上した。
論文 参考訳(メタデータ) (2024-08-20T21:36:57Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - Efficient Joint Detection and Multiple Object Tracking with Spatially
Aware Transformer [0.8808021343665321]
マルチオブジェクト追跡のための軽量かつ高効率な関節検出・追跡パイプラインを提案する。
CNNの代わりにトランスフォーマーベースのバックボーンによって駆動される。
修正の結果、TransTrackの全体的なモデルサイズを58.73%、複雑さを78.72%削減しました。
論文 参考訳(メタデータ) (2022-11-09T07:19:33Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Voxel Field Fusion for 3D Object Detection [140.6941303279114]
本稿では,3次元オブジェクト検出のための概念的にシンプルなフレームワークであるvoxel field fusionを提案する。
提案手法は, ボクセル領域における画像特徴を線として表現し, 融合することにより, モダリティの整合性を維持することを目的としている。
このフレームワークは、さまざまなベンチマークで一貫したゲインを達成し、KITTIとnuScenesデータセットでの従来のフュージョンベースのメソッドを上回っている。
論文 参考訳(メタデータ) (2022-05-31T16:31:36Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。