論文の概要: Sampling Equivariant Self-attention Networks for Object Detection in
Aerial Images
- arxiv url: http://arxiv.org/abs/2111.03420v1
- Date: Fri, 5 Nov 2021 11:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 15:06:59.322896
- Title: Sampling Equivariant Self-attention Networks for Object Detection in
Aerial Images
- Title(参考訳): 空中画像における物体検出のためのサンプリング同変自己アテンションネットワーク
- Authors: Guo-Ye Yang, Xiang-Li Li, Ralph R. Martin, Shi-Min Hu
- Abstract要約: 空中画像の物体は、通常の画像よりもスケールや方向のバリエーションが大きいため、検出はより困難である。
本稿では,局所的なイメージパッチに制限された自己アテンションを考慮した同変自己アテンションネットワークのサンプリングを提案する。
また, 空画像データに制限があるため, オーバーフィッティングに対処するために, ランダム化正規化モジュールを新たに導入した。
- 参考スコア(独自算出の注目度): 36.9958603490323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objects in aerial images have greater variations in scale and orientation
than in typical images, so detection is more difficult. Convolutional neural
networks use a variety of frequency- and orientation-specific kernels to
identify objects subject to different transformations; these require many
parameters. Sampling equivariant networks can adjust sampling from input
feature maps according to the transformation of the object, allowing a kernel
to extract features of an object under different transformations. Doing so
requires fewer parameters, and makes the network more suitable for representing
deformable objects, like those in aerial images. However, methods like
deformable convolutional networks can only provide sampling equivariance under
certain circumstances, because of the locations used for sampling. We propose
sampling equivariant self-attention networks which consider self-attention
restricted to a local image patch as convolution sampling with masks instead of
locations, and design a transformation embedding module to further improve the
equivariant sampling ability. We also use a novel randomized normalization
module to tackle overfitting due to limited aerial image data. We show that our
model (i) provides significantly better sampling equivariance than existing
methods, without additional supervision, (ii) provides improved classification
on ImageNet, and (iii) achieves state-of-the-art results on the DOTA dataset,
without increased computation.
- Abstract(参考訳): 空中画像の物体は、通常の画像よりもスケールや方向のバリエーションが大きいため、検出は困難である。
畳み込みニューラルネットワークは、異なる変換対象のオブジェクトを識別するために、さまざまな周波数および向き特異的なカーネルを使用する。
サンプリング等価ネットワークは、入力特徴マップからのサンプリングをオブジェクトの変換に従って調整することができ、カーネルは異なる変換の下でオブジェクトの特徴を抽出することができる。
そのためパラメータは少なくなり、ネットワークは空中画像のような変形可能な物体を表現するのにより適している。
しかし、変形可能な畳み込みネットワークのような手法は、サンプリングに使用される場所のため、特定の状況下でサンプリング等価性しか提供できない。
本稿では,局所画像パッチに制限された自己アテンションを,位置の代わりにマスクを用いた畳み込みサンプリングとして考慮した同変自己アテンションネットワークのサンプリングを提案し,同変サンプリング能力をさらに向上させる変換埋め込みモジュールの設計を行う。
また,航空画像データに制限があるため,オーバーフィッティングに取り組むために,新しいランダム化正規化モジュールを用いる。
私たちのモデルは
(i)追加の監督なしに、既存の方法よりもサンプリング等価性が大幅に向上する。
(ii)imagenetの分類の改善、及び
(iii)計算量を増やすことなく、DOTAデータセットの最先端結果を達成する。
関連論文リスト
- Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Transformation-Invariant Network for Few-Shot Object Detection in Remote
Sensing Images [15.251042369061024]
FSOD(Few-shot Object Detection)は、トレーニングのために大量のラベル付きデータを頼りにしている。
リモートセンシング画像におけるオブジェクトのスケールと向きのバリエーションは、既存のFSOD法に重大な課題をもたらす。
特徴ピラミッドネットワークの統合と,クエリ機能向上のためのプロトタイプ機能の利用を提案する。
論文 参考訳(メタデータ) (2023-03-13T02:21:38Z) - Improving the Sample-Complexity of Deep Classification Networks with
Invariant Integration [77.99182201815763]
変換によるクラス内分散に関する事前知識を活用することは、ディープニューラルネットワークのサンプル複雑性を改善するための強力な方法である。
そこで本研究では,アプリケーションの複雑な問題に対処するために,プルーニング法に基づく新しい単項選択アルゴリズムを提案する。
本稿では,Rotated-MNIST,SVHN,CIFAR-10データセットにおけるサンプルの複雑さの改善について述べる。
論文 参考訳(メタデータ) (2022-02-08T16:16:11Z) - Quantised Transforming Auto-Encoders: Achieving Equivariance to
Arbitrary Transformations in Deep Networks [23.673155102696338]
畳み込みニューラルネットワーク(CNN)は画像翻訳と等価である。
埋め込みは任意の等式関係を同時に従うオートエンコーダアーキテクチャを提案する。
いくつかのデータセット上で入力画像の変換版の再レンダリングに成功した結果を示す。
論文 参考訳(メタデータ) (2021-11-25T02:26:38Z) - Rotation Equivariant Feature Image Pyramid Network for Object Detection
in Optical Remote Sensing Imagery [39.25541709228373]
本稿では、回転同値畳み込みに基づく画像ピラミッドネットワークである回転同変特徴像ピラミッドネットワーク(REFIPN)を提案する。
提案するピラミッドネットワークは, 新規な畳み込みフィルタを用いて, 広い範囲で特徴を抽出する。
提案モデルの検出性能は2つの一般的な航空ベンチマークで検証される。
論文 参考訳(メタデータ) (2021-06-02T01:33:49Z) - Truly shift-equivariant convolutional neural networks with adaptive
polyphase upsampling [28.153820129486025]
画像分類において、適応型多相ダウンサンプリング(APS-D)はCNNを完全に不変にするために最近提案されている。
本稿では,従来のアップサンプリングの非線形拡張であるaps-u(adaptive polyphase upsampling)を提案する。
論文 参考訳(メタデータ) (2021-05-09T22:33:53Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - Change Detection from SAR Images Based on Deformable Residual
Convolutional Neural Networks [26.684293663473415]
畳み込みニューラルネットワーク(cnn)は合成開口レーダ(sar)画像変化検出において大きな進歩を遂げている。
本稿では,SAR画像変化検出のための新しいUnderlineDeformable Underline Residual Convolutional Neural UnderlineNetwork (DRNet) を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:52:25Z) - FDA: Fourier Domain Adaptation for Semantic Segmentation [82.4963423086097]
本稿では,教師なし領域適応の簡易な手法について述べる。一方の低周波スペクトルを他方と交換することにより,音源と対象分布の相違を低減できる。
本手法を意味的セグメンテーション(semantic segmentation, 意味的セグメンテーション, 意味的セグメンテーション)で説明する。
以上の結果から,より高度な手法が学習に苦しむデータにおいて,単純な手順であってもニュアンス変動を低減できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-04-11T22:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。