論文の概要: A Comparative Attention Framework for Better Few-Shot Object Detection
on Aerial Images
- arxiv url: http://arxiv.org/abs/2210.13923v1
- Date: Tue, 25 Oct 2022 11:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 15:05:59.030941
- Title: A Comparative Attention Framework for Better Few-Shot Object Detection
on Aerial Images
- Title(参考訳): 空中画像におけるFew-Shotオブジェクト検出のための比較アテンションフレームワーク
- Authors: Pierre Le Jeune and Anissa Mokraoui
- Abstract要約: Few-Shot Object Detection (FSOD) 法は主に自然画像データセットに基づいて設計・評価されている。
自然画像の最良の方法が空中画像の最良の方法であるかどうかは不明だ。
本稿では,アテンションベースのFSOD手法の実装と比較を行うフレキシブルな環境を提供するベンチマークフレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.292003207440126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-Shot Object Detection (FSOD) methods are mainly designed and evaluated on
natural image datasets such as Pascal VOC and MS COCO. However, it is not clear
whether the best methods for natural images are also the best for aerial
images. Furthermore, direct comparison of performance between FSOD methods is
difficult due to the wide variety of detection frameworks and training
strategies. Therefore, we propose a benchmarking framework that provides a
flexible environment to implement and compare attention-based FSOD methods. The
proposed framework focuses on attention mechanisms and is divided into three
modules: spatial alignment, global attention, and fusion layer. To remain
competitive with existing methods, which often leverage complex training, we
propose new augmentation techniques designed for object detection. Using this
framework, several FSOD methods are reimplemented and compared. This comparison
highlights two distinct performance regimes on aerial and natural images: FSOD
performs worse on aerial images. Our experiments suggest that small objects,
which are harder to detect in the few-shot setting, account for the poor
performance. Finally, we develop a novel multiscale alignment method,
Cross-Scales Query-Support Alignment (XQSA) for FSOD, to improve the detection
of small objects. XQSA outperforms the state-of-the-art significantly on DOTA
and DIOR.
- Abstract(参考訳): Few-Shot Object Detection (FSOD) 法は主に Pascal VOC や MS COCO などの自然画像データセットを用いて設計・評価されている。
しかし、自然画像の最良の方法が空中画像の最良の方法であるかどうかは不明である。
さらに,FSOD法とFSOD法との直接比較は,多種多様な検出フレームワークとトレーニング戦略により困難である。
そこで我々は,注目に基づくFSOD手法の実装と比較を行う柔軟な環境を提供するベンチマークフレームワークを提案する。
提案手法は注意機構に着目し,空間的アライメント,グローバルアライメント,融合層という3つのモジュールに分割する。
複雑な学習を多用する既存の手法と競合し続けるために,物体検出のための新しい拡張手法を提案する。
このフレームワークを使って、いくつかのFSODメソッドを再実装し比較する。
この比較では、航空画像と自然画像の2つの異なるパフォーマンスレジームを強調している。
実験では,小さめの物体は数発で検出しにくいため,性能の低下が原因であることが示唆された。
最後に,FSODのための新しいマルチスケールアライメント手法であるクロススケールクエリ・サポーターアライメント(XQSA)を開発し,小型物体の検出を改善する。
XQSAはDOTAとDIORで最先端を著しく上回る。
関連論文リスト
- SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection [59.868772767818975]
本稿では,SOOD++ と呼ばれる簡易かつ効果的な半教師付きオブジェクト指向検出手法を提案する。
具体的には、空中画像からの物体は、通常任意の向き、小さなスケール、集約である。
様々なラベル付き環境下での多目的オブジェクトデータセットに対する大規模な実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-01T07:03:51Z) - Multi-Sensor Diffusion-Driven Optical Image Translation for Large-Scale Applications [3.4085512042262374]
本稿では,大規模な低空間分解能画像を,異なる光学センサから高分解能に高分解能に分解する手法を提案する。
我々の貢献は、大規模な画像翻訳の課題に対処するために欠かせない新しい前方および逆拡散過程にある。
その結果、一貫したパッチを持つ高解像度の大規模画像となり、異種変化検出などのアプリケーションに不可欠である。
論文 参考訳(メタデータ) (2024-04-17T10:49:00Z) - Boosting Semi-Supervised Object Detection in Remote Sensing Images With
Active Teaching [34.26972464240673]
リモートセンシング画像における物体検出を促進するために,新しい能動学習法(AL)を提案する。
提案手法では,RoI 比較モジュール (RoICM) を組み込んで,関心領域に対する高信頼な擬似ラベルを生成する。
提案手法は,RSIにおけるオブジェクト検出の最先端手法より優れている。
論文 参考訳(メタデータ) (2024-02-29T08:52:38Z) - Object Detection in Aerial Images in Scarce Data Regimes [0.0]
小さな物体は、より多数の空中画像において、自然画像と空中画像の間の明らかなパフォーマンスギャップの原因となっている。
FSOD法の訓練と評価を改善するスケール適応型ボックス類似度基準を提案する。
また、計量学習と微調整に基づく2つの異なるアプローチによる汎用FSODにも貢献する。
論文 参考訳(メタデータ) (2023-10-16T14:16:47Z) - Exploring Resolution and Degradation Clues as Self-supervised Signal for
Low Quality Object Detection [77.3530907443279]
劣化した低解像度画像中の物体を検出するための,新しい自己教師型フレームワークを提案する。
本手法は, 既存手法と比較して, 異変劣化状況に直面する場合に比べ, 優れた性能を示した。
論文 参考訳(メタデータ) (2022-08-05T09:36:13Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z) - Dual-Camera Super-Resolution with Aligned Attention Modules [56.54073689003269]
デュアルカメラ・スーパーレゾリューション(DCSR)に着目したレファレンスベース・スーパーレゾリューション(RefSR)への新しいアプローチを提案する。
提案手法は,空間アライメント操作と標準パッチベースの特徴マッチングを一般化する。
実世界の画像とトレーニング画像の領域ギャップを埋めるために,自己監督型領域適応戦略を提案する。
論文 参考訳(メタデータ) (2021-09-03T07:17:31Z) - Unifying Remote Sensing Image Retrieval and Classification with Robust
Fine-tuning [3.6526118822907594]
新しい大規模トレーニングおよびテストデータセットであるSF300で、リモートセンシングイメージの検索と分類を統一することを目指しています。
本研究では,ImageNetの事前学習ベースラインと比較して,9つのデータセットの検索性能と分類性能を体系的に向上させることを示す。
論文 参考訳(メタデータ) (2021-02-26T11:01:30Z) - DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning [122.51237307910878]
我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。
我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。
定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
論文 参考訳(メタデータ) (2020-03-15T08:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。