論文の概要: Feedback RoI Features Improve Aerial Object Detection
- arxiv url: http://arxiv.org/abs/2311.17129v1
- Date: Tue, 28 Nov 2023 16:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 23:56:24.505071
- Title: Feedback RoI Features Improve Aerial Object Detection
- Title(参考訳): 空中物体検出を改善するフィードバックRoI機能
- Authors: Botao Ren, Botian Xu, Tengyu Liu, Jingyi Wang, Zhidong Deng
- Abstract要約: 神経科学研究は、人間の視覚系が低レベルの知覚を導くために高レベルのフィードバック情報を利用することを示した。
本稿では、オブジェクト検出に類似したメカニズムを組み込むために、フィードバックマルチレベル機能エクストラクタ(Flex)を提案する。
Flexは、画像品質の変化と分類の不確実性に応じて、画像ワイドおよびインスタンスレベルのフィードバック情報に基づいて特徴選択を洗練する。
- 参考スコア(独自算出の注目度): 9.554951222327443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neuroscience studies have shown that the human visual system utilizes
high-level feedback information to guide lower-level perception, enabling
adaptation to signals of different characteristics. In light of this, we
propose Feedback multi-Level feature Extractor (Flex) to incorporate a similar
mechanism for object detection. Flex refines feature selection based on
image-wise and instance-level feedback information in response to image quality
variation and classification uncertainty. Experimental results show that Flex
offers consistent improvement to a range of existing SOTA methods on the
challenging aerial object detection datasets including DOTA-v1.0, DOTA-v1.5,
and HRSC2016. Although the design originates in aerial image detection, further
experiments on MS COCO also reveal our module's efficacy in general detection
models. Quantitative and qualitative analyses indicate that the improvements
are closely related to image qualities, which match our motivation.
- Abstract(参考訳): 神経科学の研究では、人間の視覚システムは高レベルのフィードバック情報を利用して低レベルの知覚を誘導し、異なる特性の信号に適応できることが示されている。
そこで我々は,オブジェクト検出のための同様の機構を組み込むために,フィードバックマルチレベル機能エクストラクタ(Flex)を提案する。
Flexは、画像品質の変化と分類の不確実性に応じて、画像ワイドおよびインスタンスレベルのフィードバック情報に基づいて特徴選択を洗練する。
実験結果からFlexは、DOTA-v1.0、DOTA-v1.5、HRSC2016などの難易度の高いオブジェクト検出データセットに対して、既存のSOTAメソッドに一貫した改善を提供することがわかった。
この設計は空中画像検出に起源があるが、MS COCOのさらなる実験により、一般的な検出モデルにおける我々のモジュールの有効性が明らかになる。
定量的および質的な分析は、改善が画像の品質と密接に関連していることを示している。
関連論文リスト
- An Advanced Features Extraction Module for Remote Sensing Image Super-Resolution [0.5461938536945723]
チャネル・アンド・スペースアテンション特徴抽出(CSA-FE)と呼ばれる高度な特徴抽出モジュールを提案する。
提案手法は,高頻度情報を含む特定のチャネルや空間的位置に着目し,関連する特徴に焦点を合わせ,無関係な特徴を抑えるのに役立つ。
本モデルは,既存モデルと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-07T18:15:51Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Diffusion Model Based Visual Compensation Guidance and Visual Difference
Analysis for No-Reference Image Quality Assessment [82.13830107682232]
本稿では, 複雑な関係をモデル化する能力を示す, 最先端(SOTA)生成モデルを提案する。
生成した拡張画像とノイズを含む画像を利用する新しい拡散復元ネットワークを考案する。
2つの視覚評価枝は、得られた高レベル特徴情報を包括的に解析するように設計されている。
論文 参考訳(メタデータ) (2024-02-22T09:39:46Z) - ReViT: Enhancing Vision Transformers with Attention Residual Connections
for Visual Recognition [9.146016080115613]
視覚変換器(ViT)自己保持機構は、深い層に特徴的崩壊を特徴とする。
本稿では,ViTに基づくアーキテクチャを改良するための新たな注意学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T14:44:10Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Physics Inspired Hybrid Attention for SAR Target Recognition [61.01086031364307]
本稿では,物理にヒントを得たハイブリットアテンション(PIHA)機構と,この問題に対処するためのOFA評価プロトコルを提案する。
PIHAは、物理的情報の高レベルなセマンティクスを活用して、ターゲットの局所的なセマンティクスを認識した特徴群を活性化し、誘導する。
提案手法は,ASCパラメータが同じ12のテストシナリオにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-27T14:39:41Z) - Exploiting Causality Signals in Medical Images: A Pilot Study with
Empirical Results [1.2400966570867322]
本稿では,ニューラルネットワークによる分類目的の画像から弱い因果信号を発見し,利用するための新しい手法を提案する。
このようにして、画像の1つの部分における特徴の存在が、画像の別の部分における他の特徴の出現にどのように影響するかをモデル化する。
提案手法は,畳み込みニューラルネットワークのバックボーンと因果係数抽出モジュールから構成される。
論文 参考訳(メタデータ) (2023-09-19T08:00:26Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Attention Model Enhanced Network for Classification of Breast Cancer
Image [54.83246945407568]
AMENはマルチブランチ方式で、画素ワイドアテンションモデルとサブモジュールの分類で定式化される。
微妙な詳細情報に焦点を合わせるため、サンプル画像は、前枝から生成された画素対応の注目マップによって強化される。
3つのベンチマークデータセットで行った実験は、様々なシナリオにおいて提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2020-10-07T08:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。