論文の概要: Aerial Scene Understanding in The Wild: Multi-Scene Recognition via
Prototype-based Memory Networks
- arxiv url: http://arxiv.org/abs/2104.11200v1
- Date: Thu, 22 Apr 2021 17:32:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 13:51:04.696437
- Title: Aerial Scene Understanding in The Wild: Multi-Scene Recognition via
Prototype-based Memory Networks
- Title(参考訳): 野生における空中シーン理解:プロトタイプベースのメモリネットワークによるマルチシーン認識
- Authors: Yuansheng Hua, Lichao Moua, Jianzhe Lin, Konrad Heidler, Xiao Xiang
Zhu
- Abstract要約: 複数のシーンを1つの画像で認識するためのプロトタイプベースのメモリネットワークを提案する。
提案するネットワークは,1) プロトタイプ学習モジュール,2) プロトタイプ搭載外部メモリ,3) マルチヘッド注意型メモリ検索モジュールの3つの主要コンポーネントから構成される。
航空シーン認識の進展を促進するため,我々は新しいマルチシーン空中画像(MAI)データセットを作成する。
- 参考スコア(独自算出の注目度): 14.218223473363276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial scene recognition is a fundamental visual task and has attracted an
increasing research interest in the last few years. Most of current researches
mainly deploy efforts to categorize an aerial image into one scene-level label,
while in real-world scenarios, there often exist multiple scenes in a single
image. Therefore, in this paper, we propose to take a step forward to a more
practical and challenging task, namely multi-scene recognition in single
images. Moreover, we note that manually yielding annotations for such a task is
extraordinarily time- and labor-consuming. To address this, we propose a
prototype-based memory network to recognize multiple scenes in a single image
by leveraging massive well-annotated single-scene images. The proposed network
consists of three key components: 1) a prototype learning module, 2) a
prototype-inhabiting external memory, and 3) a multi-head attention-based
memory retrieval module. To be more specific, we first learn the prototype
representation of each aerial scene from single-scene aerial image datasets and
store it in an external memory. Afterwards, a multi-head attention-based memory
retrieval module is devised to retrieve scene prototypes relevant to query
multi-scene images for final predictions. Notably, only a limited number of
annotated multi-scene images are needed in the training phase. To facilitate
the progress of aerial scene recognition, we produce a new multi-scene aerial
image (MAI) dataset. Experimental results on variant dataset configurations
demonstrate the effectiveness of our network. Our dataset and codes are
publicly available.
- Abstract(参考訳): 航空シーン認識は基本的な視覚的課題であり、ここ数年で研究の関心が高まりつつある。
現在の研究のほとんどは、空中画像を1つのシーンレベルラベルに分類する取り組みを主に展開しているが、現実のシナリオでは、1つの画像に複数のシーンが存在することが多い。
そこで本稿では,より実用的で困難な課題である単一画像におけるマルチシーン認識への一歩を踏み出すことを提案する。
また,このようなタスクに対して手動でアノテーションを付与することは,非常に時間と労力がかかることに留意する。
そこで本研究では,複数シーンを一つの画像で認識するためのプロトタイプベースのメモリネットワークを提案する。
提案するネットワークは,1) プロトタイプ学習モジュール,2) プロトタイプ搭載外部メモリ,3) マルチヘッド注意型メモリ検索モジュールの3つの主要コンポーネントから構成される。
より具体的には、まず1シーンの空中画像データセットから各空中シーンのプロトタイプ表現を学習し、それを外部メモリに格納する。
その後、複数シーン画像の検索に関連するシーンプロトタイプを検索して最終予測を行うマルチヘッドアテンションベースのメモリ検索モジュールが考案される。
特に、トレーニング段階では、注釈付きマルチシーン画像の限られた数しか必要としない。
航空シーン認識の進展を促進するため,我々は新しいマルチシーン空中画像(MAI)データセットを作成する。
変種データセット構成の実験結果は,ネットワークの有効性を示す。
データセットとコードは公開されています。
関連論文リスト
- Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Self-attention on Multi-Shifted Windows for Scene Segmentation [14.47974086177051]
マルチスケール画像ウィンドウにおける自己注意の有効利用について検討し,視覚的特徴を学習する。
本稿では,これらの特徴マップを集約して,高密度予測のための特徴表現をデコードする3つの戦略を提案する。
我々のモデルは、4つの公開シーンセグメンテーションデータセットで非常に有望な性能を達成する。
論文 参考訳(メタデータ) (2022-07-10T07:36:36Z) - Diverse Instance Discovery: Vision-Transformer for Instance-Aware
Multi-Label Image Recognition [24.406654146411682]
視覚変換器 (ViT) が研究基盤である。
私たちの目標は、ViTのパッチトークンとセルフアテンションメカニズムを活用して、リッチなインスタンスをマルチラベルイメージでマイニングすることにあります。
マルチスケールな局所的特徴を抽出するために、弱教師付きオブジェクトローカライゼーションに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-22T14:38:40Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - MultiScene: A Large-scale Dataset and Benchmark for Multi-scene
Recognition in Single Aerial Images [17.797726722637634]
我々は10万の高解像度空中画像からなるMultiSceneと呼ばれる大規模なデータセットを作成します。
我々は視覚的に14,000枚の画像を検査し、そのシーンラベルを補正し、MultiScene-Cleanというクリーンな注釈付き画像のサブセットを生成する。
我々は,MultiScene-CleanとMultiSceneの2つのベースラインモデルを用いて実験を行い,単一画像におけるマルチシーン認識のベンチマークを行う。
論文 参考訳(メタデータ) (2021-04-07T01:09:12Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - Multiple instance learning on deep features for weakly supervised object
detection with extreme domain shifts [1.9336815376402716]
近年,画像レベルのアノテーションのみを用いたオブジェクト検出 (WSOD) が注目されている。
事前学習した深部特徴に応用した単純な複数インスタンスアプローチは、非写真データセットに優れた性能をもたらすことを示す。
論文 参考訳(メタデータ) (2020-08-03T20:36:01Z) - AiRound and CV-BrCT: Novel Multi-View Datasets for Scene Classification [2.931113769364182]
本稿では,thedatasetand CV-BrCTという2つの新しいデータセットを提案する。
1つ目は、世界中の様々な場所から抽出された視点の異なる、同じ地理的座標からの3つの画像を含む。
第2のデータセットには、ブラジル南東部から抽出された空中画像とストリートレベルの画像が含まれている。
論文 参考訳(メタデータ) (2020-08-03T18:55:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。