論文の概要: All Grains, One Scheme (AGOS): Learning Multi-grain Instance
Representation for Aerial Scene Classification
- arxiv url: http://arxiv.org/abs/2205.03371v1
- Date: Fri, 6 May 2022 17:10:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 13:58:58.141210
- Title: All Grains, One Scheme (AGOS): Learning Multi-grain Instance
Representation for Aerial Scene Classification
- Title(参考訳): 全粒, ワンスキーム(AGOS):空中シーン分類のための多粒インスタンス表現の学習
- Authors: Qi Bi, Beichen Zhou, Kun Qin, Qinghao Ye, Gui-Song Xia
- Abstract要約: 本稿では,これらの課題に対処するための新しい枠組みである1つのスキーム(AGOS)を提案する。
マルチグラインド認識モジュール(MGP)、マルチブランチマルチインスタンス表現モジュール(MBMIR)、自己整合セマンティックフュージョン(SSF)モジュールで構成される。
当社のAGOSは柔軟で,既存のCNNにプラグイン・アンド・プレイで容易に対応できる。
- 参考スコア(独自算出の注目度): 31.412401135677744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial scene classification remains challenging as: 1) the size of key
objects in determining the scene scheme varies greatly; 2) many objects
irrelevant to the scene scheme are often flooded in the image. Hence, how to
effectively perceive the region of interests (RoIs) from a variety of sizes and
build more discriminative representation from such complicated object
distribution is vital to understand an aerial scene. In this paper, we propose
a novel all grains, one scheme (AGOS) framework to tackle these challenges. To
the best of our knowledge, it is the first work to extend the classic multiple
instance learning into multi-grain formulation. Specially, it consists of a
multi-grain perception module (MGP), a multi-branch multi-instance
representation module (MBMIR) and a self-aligned semantic fusion (SSF) module.
Firstly, our MGP preserves the differential dilated convolutional features from
the backbone, which magnifies the discriminative information from multi-grains.
Then, our MBMIR highlights the key instances in the multi-grain representation
under the MIL formulation. Finally, our SSF allows our framework to learn the
same scene scheme from multi-grain instance representations and fuses them, so
that the entire framework is optimized as a whole. Notably, our AGOS is
flexible and can be easily adapted to existing CNNs in a plug-and-play manner.
Extensive experiments on UCM, AID and NWPU benchmarks demonstrate that our AGOS
achieves a comparable performance against the state-of-the-art methods.
- Abstract(参考訳): 航空シーンの分類は以下の通りである。
1)シーン構成の決定におけるキーオブジェクトのサイズは、大きく異なる。
2)シーンスキームに関係のない多くのオブジェクトが、画像にしばしば浸水する。
したがって、様々な大きさから興味領域(RoI)を効果的に知覚し、そのような複雑な物体分布からより差別的な表現を構築することは、航空シーンを理解する上で不可欠である。
本稿では,これらの課題に取り組むために,新しいall grains, one scheme (agos) フレームワークを提案する。
我々の知る限りでは、古典的な複数インスタンス学習をマルチグレーンの定式化に拡張する最初の試みである。
特に、Multi-grain Recognition Module (MGP)、Multi-branch Multi-instance Expression Module (MBMIR)、Self-aligned semantic fusion (SSF)モジュールで構成される。
第一に,mgpは,差分拡張畳み込み特徴をバックボーンから保存し,マルチグラインからの識別情報を拡大する。
そして、MBMIRは、MILの定式化の下で、マルチグライン表現のキーインスタンスをハイライトする。
最後に、SSFによって、我々のフレームワークは、マルチグレーンのインスタンス表現から同じシーンスキームを学習し、それらを融合させ、フレームワーク全体が全体として最適化されるようにします。
特に、AGOSは柔軟で、プラグアンドプレイで既存のCNNに容易に適応できます。
UCM、AID、NWPUベンチマークに関する大規模な実験は、AGOSが最先端の手法と同等のパフォーマンスを達成していることを示している。
関連論文リスト
- Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文 参考訳(メタデータ) (2024-11-21T18:59:08Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - DuAT: Dual-Aggregation Transformer Network for Medical Image
Segmentation [21.717520350930705]
トランスフォーマーベースのモデルはコンピュータビジョンタスクで成功することが広く実証されている。
しかし、それらはしばしば大きなパターンの特徴によって支配され、局所的な詳細が失われる。
本稿では、2つの革新的な設計を特徴とするDuATと呼ばれるDual-Aggregation Transformer Networkを提案する。
大腸内視鏡画像における皮膚病変像とポリープの分画における最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-21T07:54:02Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - MGML: Multi-Granularity Multi-Level Feature Ensemble Network for Remote
Sensing Scene Classification [15.856162817494726]
本稿では,多言語多層特徴アンサンブルネットワーク(MGML-FENet)を提案する。
提案ネットワークは、従来の最新(SOTA)ネットワークよりも優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2020-12-29T02:18:11Z) - Fine-Grained Visual Classification via Progressive Multi-Granularity
Training of Jigsaw Patches [67.51747235117]
きめ細かい視覚分類(FGVC)は従来の分類よりもはるかに難しい。
最近の研究は主に、最も差別的な部分の発見に焦点をあてることによってこの問題に対処している。
本稿では,これらの問題に対処するための視覚的細粒度分類のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-08T19:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。