論文の概要: Mine-JEPA: In-Domain Self-Supervised Learning for Mine-Like Object Classification in Side-Scan Sonar
- arxiv url: http://arxiv.org/abs/2604.00383v1
- Date: Wed, 01 Apr 2026 02:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.792037
- Title: Mine-JEPA: In-Domain Self-Supervised Learning for Mine-Like Object Classification in Side-Scan Sonar
- Title(参考訳): マイニングJEPA:サイドスキャンソナーにおけるマイニングライクなオブジェクト分類のためのドメイン内自己教師付き学習
- Authors: Taeyoun Kwon, Youngwon Choi, Hyeonyu Kim, Myeongkyun Cho, Junhyeok Choi, Moon Hwan Kim,
- Abstract要約: サイドスキャンソナー(SSS)地雷分類は、極度のデータ不足と自然画像との領域ギャップを特徴とする難解な海洋視覚問題である。
SSSマイニング分類のための最初のドメイン内SSLパイプラインであるMine-JEPAについて、正規化ベースのSSL損失であるSIGRegを用いて紹介する。
地雷対非鉱山設定では、Mine-JEPA は F1 スコア 0.935 に達し、1.7B 画像で事前訓練された基礎モデルである DINOv3 (0.922) より優れている。
- 参考スコア(独自算出の注目度): 1.77195794502141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Side-scan sonar (SSS) mine classification is a challenging maritime vision problem characterized by extreme data scarcity and a large domain gap from natural images. While self-supervised learning (SSL) and general-purpose vision foundation models have shown strong performance in general vision and several specialized domains, their use in SSS remains largely unexplored. We present Mine-JEPA, the first in-domain SSL pipeline for SSS mine classification, using SIGReg, a regularization-based SSL loss, to pretrain on only 1,170 unlabeled sonar images. In the binary mine vs. non-mine setting, Mine-JEPA achieves an F1 score of 0.935, outperforming fine-tuned DINOv3 (0.922), a foundation model pretrained on 1.7B images. For 3-class mine-like object classification, Mine-JEPA reaches 0.820 with synthetic data augmentation, again outperforming fine-tuned DINOv3 (0.810). We further observe that applying in-domain SSL to foundation models degrades performance by 10--13 percentage points, suggesting that stronger pretrained models do not always benefit from additional domain adaptation. In addition, Mine-JEPA with a compact ViT-Tiny backbone achieves competitive performance while using 4x fewer parameters than DINOv3. These results suggest that carefully designed in-domain self-supervised learning is a viable alternative to much larger foundation models in data-scarce maritime sonar imagery.
- Abstract(参考訳): サイドスキャンソナー(SSS)地雷分類は、極度のデータ不足と自然画像との領域ギャップを特徴とする難解な海洋視覚問題である。
自己教師付き学習(SSL)と汎用視覚基盤モデルは、一般的なビジョンといくつかの専門領域で強い性能を示しているが、SSSでの使用はいまだに探索されていない。
我々は,正則化に基づくSSL損失であるSIGRegを用いて,SSS地雷分類のための最初のドメイン内SSLパイプラインであるMine-JEPAを提案する。
地雷対非鉱山設定では、Mine-JEPA は F1 スコア 0.935 に達し、1.7B 画像で事前訓練された基礎モデルである DINOv3 (0.922) より優れている。
3クラスの地雷のような分類では、Mine-JEPAは合成データの増大により0.820に達し、DINOv3 (0.810) よりも優れていた。
さらに、ファンデーションモデルにドメイン内SSLを適用すると、パフォーマンスが10~13ポイント低下し、より強い事前トレーニングモデルがドメイン適応の恩恵を受けるとは限らないことを示唆する。
さらに、コンパクトなViT-Tinyバックボーンを持つMine-JEPAは、DINOv3よりも4倍少ないパラメータを使用しながら、競争性能を達成する。
これらの結果は、ドメイン内自己教師型学習を慎重に設計することは、データスカース海洋音節画像におけるはるかに大きな基礎モデルの代替となることを示唆している。
関連論文リスト
- Scale-Aware Self-Supervised Learning for Segmentation of Small and Sparse Structures [8.202335520689024]
自己教師付き学習は、限定的なアノテーション体制下での表現学習の強力な戦略として登場した。
そこで本研究では,小型の収穫機を拡張パイプラインに統合するSSL適応方式を提案する。
データモダリティが著しく異なる2つの領域(地震イメージングとニューロイメージング)にまたがるこのアプローチを評価した。
論文 参考訳(メタデータ) (2026-01-26T15:58:04Z) - Evaluation of deep learning architectures for wildlife object detection: A comparative study of ResNet and Inception [0.0]
本研究では,野生生物検出におけるResNet-101とInception v3の2つの個別ディープラーニングアーキテクチャの有効性について検討した。
モデルは、標準化された前処理アプローチを用いて野生生物の画像データセットで訓練され、評価された。
ResNet-101モデルでは、分類精度は94%、平均精度は0.91で、階層的な特徴を抽出する上で高い性能を示した。
論文 参考訳(メタデータ) (2025-12-17T14:30:47Z) - Investigating Location-Regularised Self-Supervised Feature Learning for Seafloor Visual Imagery [0.374750127323442]
本研究では、位置ベース正規化が6つの最先端特徴学習フレームワークに与える影響を評価する。
ロケーションレギュラー化は標準SSLよりもダウンストリームの分類性能を一貫して向上させる。
この発見はSSL正規化のための位置情報メタデータの価値を強調している。
論文 参考訳(メタデータ) (2025-09-08T13:19:04Z) - Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - Multi-Label Guided Soft Contrastive Learning for Efficient Earth Observation Pretraining [19.143105229950976]
土地被覆土地利用製品は、自然界の強い知識を持つビジョン基盤モデルと同様に、自由なグローバルな意味情報を提供する。
これらの自由な追加リソースは、一般的なコントラスト学習ボトルネックを解決するだけでなく、EO事前学習の効率と効果を大幅に向上させることを示す。
我々は、既存のSOTAモデルよりも11の下流タスクのうち10のタスクにおいて、はるかに優れた結果が得られるマルチスペクトルおよびSAR基盤モデルを作成している。
論文 参考訳(メタデータ) (2024-05-30T20:19:42Z) - Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Elastic Weight Consolidation Improves the Robustness of Self-Supervised
Learning Methods under Transfer [4.2141621237414615]
自己教師付き表現学習(SSL)手法は、下流タスクの微調整に有効なラベルなし初期条件を提供する。
我々はベイジアン連続学習のレンズの下でSSLの微調整を再解釈し、Elastic Weight Consolidation (EWC)フレームワークによる正規化を検討する。
初期SSLバックボーンに対する自己正規化は、ウォーターバードの最低サブグループ性能を5%改善し、Celeb-Aを2%向上させることを示した。
論文 参考訳(メタデータ) (2022-10-28T19:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。