論文の概要: Multi-Granularity Canonical Appearance Pooling for Remote Sensing Scene
Classification
- arxiv url: http://arxiv.org/abs/2004.04491v1
- Date: Thu, 9 Apr 2020 11:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 02:37:15.652783
- Title: Multi-Granularity Canonical Appearance Pooling for Remote Sensing Scene
Classification
- Title(参考訳): リモートセンシングシーン分類のための多粒度正準外観プール
- Authors: S. Wang, Y. Guan, L. Shao
- Abstract要約: リモートセンシングデータセットの潜在存在論的構造を自動的に捉えるために,新しいMG-CAP(Multi-Granularity Canonical Appearance Pooling)を提案する。
それぞれの特定の粒度に対して,事前定義された変換の集合から標準的外観を発見し,最大化に基づくシームズスタイルアーキテクチャを用いて対応するCNN特徴を学習する。
本稿では,GPUの固有値分解関数(EIG)を学習し,行列計算によるバックプロパゲーションを実証する安定解を提案する。
- 参考スコア(独自算出の注目度): 0.34376560669160383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognising remote sensing scene images remains challenging due to large
visual-semantic discrepancies. These mainly arise due to the lack of detailed
annotations that can be employed to align pixel-level representations with
high-level semantic labels. As the tagging process is labour-intensive and
subjective, we hereby propose a novel Multi-Granularity Canonical Appearance
Pooling (MG-CAP) to automatically capture the latent ontological structure of
remote sensing datasets. We design a granular framework that allows
progressively cropping the input image to learn multi-grained features. For
each specific granularity, we discover the canonical appearance from a set of
pre-defined transformations and learn the corresponding CNN features through a
maxout-based Siamese style architecture. Then, we replace the standard CNN
features with Gaussian covariance matrices and adopt the proper matrix
normalisations for improving the discriminative power of features. Besides, we
provide a stable solution for training the eigenvalue-decomposition function
(EIG) in a GPU and demonstrate the corresponding back-propagation using matrix
calculus. Extensive experiments have shown that our framework can achieve
promising results in public remote sensing scene datasets.
- Abstract(参考訳): リモートセンシングシーン画像の認識は、大きな視覚的セマンティックな違いのため、依然として困難である。
これらは主に、ピクセルレベルの表現と高レベルのセマンティックラベルの整合に使用できる詳細なアノテーションが欠如していることに起因する。
タギングのプロセスは労働集約的で主観的であるため,遠隔センシングデータセットの潜在的存在構造を自動的に把握する,新しいMG-CAP(Multi-Granularity Canonical Appearance Pooling)を提案する。
入力画像を段階的にトリミングして多粒な特徴を学習することのできる,粒度のフレームワークを設計する。
それぞれの特定の粒度に対して,事前定義された変換の集合から標準的外観を発見し,最大化に基づくシームズスタイルアーキテクチャを用いて対応するCNN特徴を学習する。
次に、標準cnn特徴をガウス共分散行列に置き換え、特徴の判別力を改善するために適切な行列正規化を採用する。
さらに,GPUの固有値分解関数(EIG)を学習するための安定解を提供し,行列計算を用いて対応するバックプロパゲーションを示す。
大規模な実験により、我々のフレームワークは公共のリモートセンシングシーンデータセットで有望な結果が得られることが示された。
関連論文リスト
- A Spitting Image: Modular Superpixel Tokenization in Vision Transformers [0.0]
Vision Transformer (ViT) アーキテクチャは伝統的に、画像の意味的内容に依存しないトークン化のためのグリッドベースのアプローチを採用している。
本稿では,トークン化と特徴抽出を分離するモジュール型スーパーピクセルトークン化戦略を提案する。
論文 参考訳(メタデータ) (2024-08-14T17:28:58Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Bayesian Deep Learning for Affordance Segmentation in images [3.15834651147911]
本稿では,画像の空き地を検出するための新しいベイズディープネットワークを提案する。
空間レベルでの動脈およびてんかんの分布を定量化する。
その結果,決定論的ネットワークの最先端性が向上した。
論文 参考訳(メタデータ) (2023-03-02T00:01:13Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。