論文の概要: Invariant Deep Compressible Covariance Pooling for Aerial Scene
Categorization
- arxiv url: http://arxiv.org/abs/2011.05702v1
- Date: Wed, 11 Nov 2020 11:13:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 23:22:36.141610
- Title: Invariant Deep Compressible Covariance Pooling for Aerial Scene
Categorization
- Title(参考訳): 空中シーン分類のための不変深圧縮性共分散プール
- Authors: Shidong Wang, Yi Ren, Gerard Parr, Yu Guan and Ling Shao
- Abstract要約: 本研究では,空気シーン分類におけるニュアンス変動を解決するために,新しい不変な深部圧縮性共分散プール (IDCCP) を提案する。
本研究では,公開空間画像データセットに関する広範な実験を行い,最先端の手法と比較して,この手法の優位性を実証する。
- 参考スコア(独自算出の注目度): 80.55951673479237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning discriminative and invariant feature representation is the key to
visual image categorization. In this article, we propose a novel invariant deep
compressible covariance pooling (IDCCP) to solve nuisance variations in aerial
scene categorization. We consider transforming the input image according to a
finite transformation group that consists of multiple confounding orthogonal
matrices, such as the D4 group. Then, we adopt a Siamese-style network to
transfer the group structure to the representation space, where we can derive a
trivial representation that is invariant under the group action. The linear
classifier trained with trivial representation will also be possessed with
invariance. To further improve the discriminative power of representation, we
extend the representation to the tensor space while imposing orthogonal
constraints on the transformation matrix to effectively reduce feature
dimensions. We conduct extensive experiments on the publicly released aerial
scene image data sets and demonstrate the superiority of this method compared
with state-of-the-art methods. In particular, with using ResNet architecture,
our IDCCP model can reduce the dimension of the tensor representation by about
98% without sacrificing accuracy (i.e., <0.5%).
- Abstract(参考訳): 識別的および不変特徴表現の学習は、視覚画像分類の鍵である。
本稿では,空中シーン分類におけるニュアンス変動を解決するために,新しい不変な深部圧縮性共分散プール(IDCCP)を提案する。
入力画像をD4群のような複数の共起直交行列からなる有限変換群に従って変換することを検討する。
次に、群構造を表現空間に移すためにシャム型ネットワークを採用し、そこで群作用の下で不変な自明な表現を導出することができる。
自明な表現で訓練された線形分類器も不変性を持つ。
さらに,表現の判別力を向上させるために,変換行列に直交制約を課しながらテンソル空間への表現を拡張し,特徴次元を効果的に削減する。
本手法は,公開された航空シーン画像データセットを広範囲に実験し,最新手法と比較し,その優位性を実証する。
特に、ResNetアーキテクチャを用いることで、我々のIDCCPモデルは、精度を犠牲にすることなく、テンソル表現の次元を約98%削減できる(すなわち、<0.5%)。
関連論文リスト
- Mind the Gap Between Prototypes and Images in Cross-domain Finetuning [64.97317635355124]
プロトタイプと画像にそれぞれ異なる変換を適用するために,コントラスト型プロトタイプイメージ適応(CoPA)を提案する。
Meta-Datasetの実験では、CoPAが最先端のパフォーマンスをより効率的に達成できることが示されている。
論文 参考訳(メタデータ) (2024-10-16T11:42:11Z) - Affine-Transformation-Invariant Image Classification by Differentiable
Arithmetic Distribution Module [8.125023712173686]
畳み込みニューラルネットワーク(CNN)は画像分類において有望な結果を得た。
CNNは回転、翻訳、フリップ、シャッフルなどのアフィン変換に弱い。
本研究では,分散学習手法を取り入れた,より堅牢な代替手法を提案する。
論文 参考訳(メタデータ) (2023-09-01T22:31:32Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Deep Diversity-Enhanced Feature Representation of Hyperspectral Images [87.47202258194719]
トポロジを改良して3次元畳み込みを補正し,上行階の高次化を図る。
また、要素間の独立性を最大化するために特徴マップに作用する新しい多様性対応正規化(DA-Reg)項を提案する。
提案したRe$3$-ConvSetとDA-Regの優位性を実証するために,様々なHS画像処理および解析タスクに適用する。
論文 参考訳(メタデータ) (2023-01-15T16:19:18Z) - Difference of Anisotropic and Isotropic TV for Segmentation under Blur
and Poisson Noise [2.6381163133447836]
画像をスムーシング・アンド・スレッディング(SaT)セグメンテーションフレームワークを採用して、スムースなソリューションを見つけ、次に$k-meansで画像のセグメンテーションを行う。
具体的には、画像平滑化ステップにおいて、ムムフォードシャーモデルの最大雑音を正則化として、異方性全変動(AITV)の最大変動に置き換える。
スキームの有効性を検証するための収束解析が提供される。
論文 参考訳(メタデータ) (2023-01-06T01:14:56Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Group Equivariant Subsampling [60.53371517247382]
サブサンプリングは、プールやストライド畳み込みの形で畳み込みニューラルネットワーク(CNN)で使用される。
まず、正確な翻訳同変CNNを構築するために使用できる翻訳同変サブサンプリング/アップサンプリング層を導入する。
次に、これらの層を一般群への変換を超えて一般化し、したがって群同変部分サンプリング/アップサンプリングを提案する。
論文 参考訳(メタデータ) (2021-06-10T16:14:00Z) - Deep Transformation-Invariant Clustering [24.23117820167443]
抽象的な特徴に頼らず、画像変換の予測を学ぶアプローチを提案する。
この学習プロセスは、K平均とガウス混合モデルの勾配に基づく訓練に自然に適合する。
我々の新しいアプローチは、標準的な画像クラスタリングベンチマークにおいて、競争力があり、非常に有望な結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2020-06-19T13:43:08Z) - BasisVAE: Translation-invariant feature-level clustering with
Variational Autoencoders [9.51828574518325]
変分オートエンコーダ(VAE)は、非線形次元削減のための柔軟でスケーラブルなフレームワークを提供する。
崩壊した変分推論スキームがBasisVAEのスケーラブルかつ効率的な推論にどのように寄与するかを示す。
論文 参考訳(メタデータ) (2020-03-06T23:10:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。