論文の概要: Evaluation and Analysis of Deep Neural Transformers and Convolutional Neural Networks on Modern Remote Sensing Datasets
- arxiv url: http://arxiv.org/abs/2508.02871v1
- Date: Mon, 04 Aug 2025 19:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.666896
- Title: Evaluation and Analysis of Deep Neural Transformers and Convolutional Neural Networks on Modern Remote Sensing Datasets
- Title(参考訳): 現代リモートセンシングデータセットを用いた深部ニューラルネットワークと畳み込みニューラルネットワークの評価と解析
- Authors: J. Alex Hurt, Trevor M. Bajkowski, Grant J. Scott, Curt H. Davis,
- Abstract要約: 2012年、AlexNetは視覚知覚の最先端技術としてディープ畳み込みニューラルネットワーク(DCNN)を設立した。
本稿では,高分解能電子光学衛星画像の物体検出におけるトランスフォーマーベースニューラルネットワークの利用について検討する。
本研究では,2020年以降に7件,2015年以降に11件のそれぞれについて,境界ボックス検出と局所化の11つのアルゴリズムを比較した。
- 参考スコア(独自算出の注目度): 1.335664823620186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In 2012, AlexNet established deep convolutional neural networks (DCNNs) as the state-of-the-art in CV, as these networks soon led in visual tasks for many domains, including remote sensing. With the publication of Visual Transformers, we are witnessing the second modern leap in computational vision, and as such, it is imperative to understand how various transformer-based neural networks perform on satellite imagery. While transformers have shown high levels of performance in natural language processing and CV applications, they have yet to be compared on a large scale to modern remote sensing data. In this paper, we explore the use of transformer-based neural networks for object detection in high-resolution electro-optical satellite imagery, demonstrating state-of-the-art performance on a variety of publicly available benchmark data sets. We compare eleven distinct bounding-box detection and localization algorithms in this study, of which seven were published since 2020, and all eleven since 2015. The performance of five transformer-based architectures is compared with six convolutional networks on three state-of-the-art opensource high-resolution remote sensing imagery datasets ranging in size and complexity. Following the training and evaluation of thirty-three deep neural models, we then discuss and analyze model performance across various feature extraction methodologies and detection algorithms.
- Abstract(参考訳): 2012年、AlexNetはCVの最先端技術としてディープ畳み込みニューラルネットワーク(DCNN)を確立した。
ビジュアルトランスフォーマーの出版により、コンピュータビジョンにおける第2の近代的な飛躍を目の当たりにしており、様々なトランスフォーマーベースのニューラルネットワークが衛星画像にどのように作用するかを理解することが不可欠である。
トランスフォーマーは自然言語処理やCVアプリケーションで高い性能を示してきたが、現代のリモートセンシングデータと大規模な比較は行われていない。
本稿では,高分解能電子光学衛星画像における物体検出のためのトランスフォーマーベースニューラルネットワークの利用について検討し,様々なベンチマークデータセットに対して最先端の性能を示す。
本研究では,2020年以降に7件,2015年以降に11件のそれぞれについて,境界ボックス検出と局所化の11つのアルゴリズムを比較した。
5つのトランスフォーマーベースのアーキテクチャの性能は、サイズと複雑さの異なる3つの最先端のオープンソースの高解像度リモートセンシング画像データセット上の6つの畳み込みネットワークと比較される。
深部神経モデルの訓練と評価に続いて,様々な特徴抽出手法と検出アルゴリズムを用いてモデル性能を議論し,解析する。
関連論文リスト
- PyCAT4: A Hierarchical Vision Transformer-based Framework for 3D Human Pose Estimation [0.8149086480055433]
本研究では,既存のPymafネットワークアーキテクチャを深く最適化し,改良することを目的とする。
新しいPyCAT4モデルは、COCOと3DPWデータセットの実験を通じて検証される。
論文 参考訳(メタデータ) (2025-08-04T18:23:31Z) - Inverting Transformer-based Vision Models [0.8124699127636158]
本研究では,検出変換器と視覚変換器の中間層から入力画像を再構成するために,逆モデルのモジュラー手法を適用する。
我々の分析は、これらの特性がモデル内でどのように現れるかを示し、トランスフォーマーベースの視覚モデルに対する深い理解に寄与する。
論文 参考訳(メタデータ) (2024-12-09T14:43:06Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - ViT-ReT: Vision and Recurrent Transformer Neural Networks for Human
Activity Recognition in Videos [6.117917355232902]
本稿では,人間行動認識のための2つのトランスフォーマーニューラルネットワークを提案し,設計する。
ReT(Recurrent Transformer)は、データのシーケンスの予測に使用される特殊なニューラルネットワークであり、ViT(Vision Transformer)は画像から有能な特徴を抽出するために最適化されたビジョントランスである。
我々は,提案するトランスフォーマーニューラルネットワークと,現在のCNNおよびRNNに基づく人間活動認識モデルとの比較を,速度と精度の観点から行った。
論文 参考訳(メタデータ) (2022-08-16T20:03:53Z) - Visual Transformer for Object Detection [0.0]
我々は、自己注意を識別的視覚的タスク、オブジェクト検出に用いて、畳み込みの代替として検討する。
我々のモデルは、多くの異なるモデルとスケールにわたるCOCOのオブジェクト検出において、一貫した改善をもたらす。
論文 参考訳(メタデータ) (2022-06-01T06:13:09Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Feature-level augmentation to improve robustness of deep neural networks
to affine transformations [22.323625542814284]
最近の研究では、畳み込みニューラルネットワークは小さな画像変換に対してうまく一般化しないことが明らかになっている。
ニューラルアーキテクチャの中間層にデータ拡張を導入することを提案する。
このような変換に対処するニューラルネットワークの能力を開発する。
論文 参考訳(メタデータ) (2022-02-10T17:14:58Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。