論文の概要: Multi-level Cross-modal Feature Alignment via Contrastive Learning
towards Zero-shot Classification of Remote Sensing Image Scenes
- arxiv url: http://arxiv.org/abs/2306.06066v1
- Date: Wed, 31 May 2023 10:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-18 13:12:22.278021
- Title: Multi-level Cross-modal Feature Alignment via Contrastive Learning
towards Zero-shot Classification of Remote Sensing Image Scenes
- Title(参考訳): リモートセンシング画像シーンのゼロショット分類に向けたコントラスト学習によるマルチレベルクロスモーダル特徴アライメント
- Authors: Chun Liu, Suqiang Ma, Zheng Li, Wei Yang and Zhigang Han
- Abstract要約: ゼロショット画像シーンの分類に対処するクロスモーダル特徴アライメント手法が提案されている。
リモートセンシング画像シーンのゼロショット分類のためのコントラスト学習によるマルチレベルクロスモーダル特徴アライメント手法を提案する。
提案手法は,ゼロショットリモートセンシング画像シーン分類のための技術手法の状況より優れている。
- 参考スコア(独自算出の注目度): 7.17717863134783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot classification of image scenes which can recognize the image scenes
that are not seen in the training stage holds great promise of lowering the
dependence on large numbers of labeled samples. To address the zero-shot image
scene classification, the cross-modal feature alignment methods have been
proposed in recent years. These methods mainly focus on matching the visual
features of each image scene with their corresponding semantic descriptors in
the latent space. Less attention has been paid to the contrastive relationships
between different image scenes and different semantic descriptors. In light of
the challenge of large intra-class difference and inter-class similarity among
image scenes and the potential noisy samples, these methods are susceptible to
the influence of the instances which are far from these of the same classes and
close to these of other classes. In this work, we propose a multi-level
cross-modal feature alignment method via contrastive learning for zero-shot
classification of remote sensing image scenes. While promoting the
single-instance level positive alignment between each image scene with their
corresponding semantic descriptors, the proposed method takes the
cross-instance contrastive relationships into consideration,and learns to keep
the visual and semantic features of different classes in the latent space apart
from each other. Extensive experiments have been done to evaluate the
performance of the proposed method. The results show that our proposed method
outperforms state of the art methods for zero-shot remote sensing image scene
classification. All the code and data are available at github
https://github.com/masuqiang/MCFA-Pytorch
- Abstract(参考訳): トレーニング段階では見えない画像シーンを認識できる画像シーンのゼロショット分類は、多数のラベル付きサンプルへの依存を低下させる大きな可能性を秘めている。
ゼロショット画像シーン分類に対処するため,近年,クロスモーダルな特徴アライメント手法が提案されている。
これらの手法は主に、潜在空間における各画像シーンの視覚的特徴と対応する意味記述子とのマッチングに焦点を当てている。
異なる画像シーンと異なる意味記述子間の対比関係にはあまり注意が払われていない。
画像シーンと潜在的ノイズサンプル間のクラス間の大きな差異とクラス間類似性の課題を踏まえ、これらの手法は、同じクラスのクラスから遠く、他のクラスのクラスに近いインスタンスの影響を受けやすい。
本研究では,リモートセンシング画像シーンのゼロショット分類のためのコントラスト学習によるマルチレベルクロスモーダル特徴アライメント手法を提案する。
提案手法は,各画像シーンと対応するセマンティック記述子との単一インスタンスレベルの正のアライメントを促進する一方で,クロスインスタンスのコントラスト関係を考慮に入れ,各クラスにおける視覚的特徴と意味的特徴を相互に区別することを学ぶ。
提案手法の性能評価のために, 大規模な実験を行った。
その結果,提案手法は,ゼロショットリモートセンシング画像シーン分類における技術手法の状況よりも優れていた。
すべてのコードとデータはgithub https://github.com/masuqiang/MCFA-Pytorchで入手できる。
関連論文リスト
- Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - SGMNet: Scene Graph Matching Network for Few-Shot Remote Sensing Scene
Classification [14.016637774748677]
Few-Shot Remote Sensing Scene Classification (FSRSSC) は,新しいシーンクラスを少数の例で認識することを目的とした重要な課題である。
SGMNetと呼ばれるFSRSSCのための新しいシーングラフマッチングに基づくメタラーニングフレームワークを提案する。
UCMerced LandUse, WHU19, AID, NWPU-RESISC45データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-10-09T07:43:40Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Cross-domain Correspondence Learning for Exemplar-based Image
Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。
出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。
本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-12T09:10:57Z) - Realizing Pixel-Level Semantic Learning in Complex Driving Scenes based
on Only One Annotated Pixel per Class [17.481116352112682]
本稿では,複雑な運転シーン下でのセマンティックセマンティックセマンティクスタスクを提案する。
3段階のプロセスは擬似ラベル生成のために構築され、各カテゴリに最適な特徴表現を徐々に実装する。
Cityscapesデータセットの実験は、提案手法が弱教師付きセマンティックセマンティックセマンティクスタスクを解決するための実現可能な方法であることを示した。
論文 参考訳(メタデータ) (2020-03-10T12:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。