論文の概要: PBVS 2024 Solution: Self-Supervised Learning and Sampling Strategies for SAR Classification in Extreme Long-Tail Distribution
- arxiv url: http://arxiv.org/abs/2412.12565v1
- Date: Tue, 17 Dec 2024 05:49:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:58:52.805284
- Title: PBVS 2024 Solution: Self-Supervised Learning and Sampling Strategies for SAR Classification in Extreme Long-Tail Distribution
- Title(参考訳): PBVS 2024: 極長軸分布におけるSAR分類のための自己監督学習とサンプリング戦略
- Authors: Yuhyun Kim, Minwoo Kim, Hyobin Park, Jinwook Jung, Dong-Geol Choi,
- Abstract要約: 本稿では,マルチモーダル学習と推論を組み合わせた2段階学習手法を提案する。
我々のモデルは精度21.45%、AUC0.56、総合スコア0.30を達成し、競争では9位となった。
- 参考スコア(独自算出の注目度): 5.965417506363093
- License:
- Abstract: The Multimodal Learning Workshop (PBVS 2024) aims to improve the performance of automatic target recognition (ATR) systems by leveraging both Synthetic Aperture Radar (SAR) data, which is difficult to interpret but remains unaffected by weather conditions and visible light, and Electro-Optical (EO) data for simultaneous learning. The subtask, known as the Multi-modal Aerial View Imagery Challenge - Classification, focuses on predicting the class label of a low-resolution aerial image based on a set of SAR-EO image pairs and their respective class labels. The provided dataset consists of SAR-EO pairs, characterized by a severe long-tail distribution with over a 1000-fold difference between the largest and smallest classes, making typical long-tail methods difficult to apply. Additionally, the domain disparity between the SAR and EO datasets complicates the effectiveness of standard multimodal methods. To address these significant challenges, we propose a two-stage learning approach that utilizes self-supervised techniques, combined with multimodal learning and inference through SAR-to-EO translation for effective EO utilization. In the final testing phase of the PBVS 2024 Multi-modal Aerial View Image Challenge - Classification (SAR Classification) task, our model achieved an accuracy of 21.45%, an AUC of 0.56, and a total score of 0.30, placing us 9th in the competition.
- Abstract(参考訳): マルチモーダル学習ワークショップ(PBVS 2024)は、気象条件や可視光の影響を受けない合成開口レーダ(SAR)データと、同時学習のための電気オプティカル(EO)データの両方を活用することにより、自動目標認識(ATR)システムの性能を向上させることを目的としている。
The Multi-modal Aerial View Imagery Challenge - Classificationとして知られるこのサブタスクは、SAR-EO画像対とそれらのクラスラベルのセットに基づいて、低解像度の空中画像のクラスラベルを予測することに焦点を当てている。
得られたデータセットはSAR-EOペアで構成されており、最大クラスと最小クラスの1000倍の差を持つ重い長テール分布が特徴であり、典型的な長テール法の適用が困難である。
さらに、SARデータセットとEOデータセットのドメイン格差は、標準的なマルチモーダルメソッドの有効性を複雑にしている。
これらの課題に対処するために,自己指導型手法と多モーダル学習とSAR-to-EO翻訳による推論を組み合わせた2段階学習手法を提案する。
PBVS 2024 Multi-modal Aerial View Image Challenge - Classification (SAR Classification)タスクの最終テスト段階では、我々のモデルは精度21.45%、AUC0.56、総合スコア0.30を達成し、競争の9位となった。
関連論文リスト
- C-DiffSET: Leveraging Latent Diffusion for SAR-to-EO Image Translation with Confidence-Guided Reliable Object Generation [23.63992950769041]
C-DiffSETは、訓練済みの遅延拡散モデル(LDM)を自然画像で広く訓練したフレームワークである。
顕著なことに、事前訓練されたVAEエンコーダは、SAR入力のノイズレベルが異なる場合でも、同じ潜時空間でSARとEOの画像を整列する。
論文 参考訳(メタデータ) (2024-11-16T12:28:40Z) - Decorrelating Structure via Adapters Makes Ensemble Learning Practical for Semi-supervised Learning [50.868594148443215]
コンピュータビジョンでは、従来のアンサンブル学習法は訓練効率が低いか、限られた性能を示す。
本稿では,視覚的タスクに適応器を用いたDecorrelating Structure(DSA)による軽量,損失関数なし,アーキテクチャに依存しないアンサンブル学習を提案する。
論文 参考訳(メタデータ) (2024-08-08T01:31:38Z) - SAFE: a SAR Feature Extractor based on self-supervised learning and masked Siamese ViTs [5.961207817077044]
マスク付きシームズ・ビジョン・トランスフォーマーをベースとした新しい自己教師型学習フレームワークを提案し,SAFEと命名された汎用SAR機能エクストラクタを提案する。
提案手法は,厳密で一般化可能な特徴を抽出し,ラベルのないSARデータに基づいてモデルを訓練するために,対照的な学習原理を利用する。
サブアパーチャ分解や非特異化など,SAR画像特有のデータ拡張技術を導入する。
我々のネットワークは、評価に使用されるセンサーの訓練を受けなくても、数ショットの分類やセグメンテーションタスクにおいて、他の最先端の手法と競合したり、超えたりしています。
論文 参考訳(メタデータ) (2024-06-30T23:11:20Z) - Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification [59.99976102069976]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection [79.23689506129733]
我々は,大規模SARオブジェクト検出のための新しいベンチマークデータセットとオープンソース手法を構築した。
私たちのデータセットであるSARDet-100Kは、10の既存のSAR検出データセットの厳格な調査、収集、標準化の結果です。
私たちの知る限りでは、SARDet-100KはCOCOレベルの大規模マルチクラスSARオブジェクト検出データセットとしては初めてのものです。
論文 参考訳(メタデータ) (2024-03-11T09:20:40Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Semi-Supervised SAR ATR Framework with Transductive Auxiliary
Segmentation [16.65792542181861]
トランスダクティブ補助ATR(SFAS)を用いた半教師付きSARフレームワークを提案する。
SFASは、レギュレータとして機能する補助損失を持つ、利用可能な未ラベルサンプルのトランスダクティブ一般化の活用に重点を置いている。
94.18%の認識性能は各クラスで20のトレーニングサンプルで達成でき、同時に正確なセグメンテーション結果が得られる。
論文 参考訳(メタデータ) (2023-08-31T11:00:05Z) - 1st Place Solution to MultiEarth 2023 Challenge on Multimodal SAR-to-EO
Image Translation [3.8424737607413153]
マルチモーダル・ラーニング・フォー・アース・エコ環境ワークショップ(MultiEarth 2023)は、地球生態系の健康状態のモニタリングと分析のために、広範囲に収集された大量のリモートセンシングデータを活用することを目的としている。
サブタスクであるMultimodal SAR-to-EO Image Translationは、悪天候や照明条件下であっても堅牢なSARデータを使用し、高品質で透明で視覚的に魅力的なEOデータに変換する。
最終評価では、チームの「CDRL」は0.07313のMAEを獲得し、リーダーボードの最高位を確保した。
論文 参考訳(メタデータ) (2023-06-22T01:32:30Z) - A Global Model Approach to Robust Few-Shot SAR Automatic Target
Recognition [6.260916845720537]
ディープラーニングベースのSAR自動ターゲット認識(ATR)モデルをトレーニングするために、クラス毎に数百のラベル付きサンプルを収集できるとは限らない。
この研究は特に数発のSAR ATR問題に対処しており、興味のあるタスクをサポートするためにラベル付きサンプルがわずかである。
論文 参考訳(メタデータ) (2023-03-20T00:24:05Z) - NTIRE 2021 Multi-modal Aerial View Object Classification Challenge [88.89190054948325]
CVPR の NTIRE 2021 ワークショップと共同で,MAVOC (Multi-modal Aerial View Object Classification) の最初の挑戦を紹介した。
この課題は、EOとSAR画像を用いた2つの異なるトラックで構成されている。
本コンペティションで提案した最上位の手法について検討し,その成果を目視テストセットで評価する。
論文 参考訳(メタデータ) (2021-07-02T16:55:08Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。