論文の概要: Subimage Overlap Prediction: Task-Aligned Self-Supervised Pretraining For Semantic Segmentation In Remote Sensing Imagery
- arxiv url: http://arxiv.org/abs/2601.01781v1
- Date: Mon, 05 Jan 2026 04:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.762958
- Title: Subimage Overlap Prediction: Task-Aligned Self-Supervised Pretraining For Semantic Segmentation In Remote Sensing Imagery
- Title(参考訳): サブイメージオーバーラップ予測:リモートセンシング画像におけるセマンティックセグメンテーションのためのタスク調整型自己監督型プレトレーニング
- Authors: Lakshay Sharma, Alex Marin,
- Abstract要約: Subimage Overlap Predictionは、リモートセンシング画像におけるセマンティックセグメンテーションを支援するための、新しい自己教師型事前訓練タスクである。
このタスクで事前学習を行うことで、下流セグメンテーションの性能は大幅に向上し、同等かそれ以上に向上することを示す。
- 参考スコア(独自算出の注目度): 2.2402058702736185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) methods have become a dominant paradigm for creating general purpose models whose capabilities can be transferred to downstream supervised learning tasks. However, most such methods rely on vast amounts of pretraining data. This work introduces Subimage Overlap Prediction, a novel self-supervised pretraining task to aid semantic segmentation in remote sensing imagery that uses significantly lesser pretraining imagery. Given an image, a sub-image is extracted and the model is trained to produce a semantic mask of the location of the extracted sub-image within the original image. We demonstrate that pretraining with this task results in significantly faster convergence, and equal or better performance (measured via mIoU) on downstream segmentation. This gap in convergence and performance widens when labeled training data is reduced. We show this across multiple architecture types, and with multiple downstream datasets. We also show that our method matches or exceeds performance while requiring significantly lesser pretraining data relative to other SSL methods. Code and model weights are provided at \href{https://github.com/sharmalakshay93/subimage-overlap-prediction}{github.com/sharmalakshay93/subimage-overlap-prediction}.
- Abstract(参考訳): 自己教師付き学習(SSL)手法は、下流の教師付き学習タスクに伝達可能な汎用モデルを作成する上で、支配的なパラダイムとなっている。
しかし、そのような手法のほとんどは大量の事前学習データに依存している。
この研究は、リモートセンシング画像におけるセマンティックセグメンテーションを支援する、新しい自己教師付き事前訓練タスクであるSubimage Overlap Predictionを導入し、より少ない事前訓練画像を使用する。
画像が与えられた後、サブイメージを抽出し、モデルを訓練し、抽出したサブイメージの位置のセマンティックマスクを原画像内に生成する。
このタスクで事前学習を行うことで、下流セグメンテーションにおけるコンバージェンスが大幅に速くなり、(mIoUによって測定される)同等またはより良い性能が得られることを示す。
この収束と性能のギャップはラベル付きトレーニングデータを減らすと拡大する。
これを、複数のアーキテクチャタイプと、複数のダウンストリームデータセットで示しています。
また、我々の手法は、他のSSLメソッドと比較して、より少ない事前トレーニングデータを必要とする一方で、性能に適合または超えていることを示す。
コードとモデルウェイトは \href{https://github.com/sharmalakshay93/subimage-overlap-prediction}{github.com/sharmalakshay93/subimage-overlap-prediction} で提供されている。
関連論文リスト
- A Contrastive Learning Foundation Model Based on Perfectly Aligned Sample Pairs for Remote Sensing Images [18.191222010916405]
セマンティック・パーフェクト・アライメント・サンプル・ペアによる全目的リモートセンシング機能を実現するPerAと呼ばれる新しい自己教師型手法を提案する。
私たちのフレームワークは,教師と生徒の一貫性を確保することによって,高品質な機能を提供します。
約500万のRS画像を含むラベル付き事前学習データセットを収集する。
論文 参考訳(メタデータ) (2025-05-26T03:12:49Z) - Enhancing pretraining efficiency for medical image segmentation via transferability metrics [0.0]
医用画像のセグメンテーションタスクでは、ラベル付きトレーニングデータの不足が大きな課題となっている。
本稿では,事前学習したモデルが対象データをいかに頑健に表現できるかを計測する,対照的な学習に基づく新しい伝達可能性指標を提案する。
論文 参考訳(メタデータ) (2024-10-24T12:11:52Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [49.80911683739506]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Co-training $2^L$ Submodels for Visual Recognition [67.02999567435626]
サブモデルコトレーニングは、コトレーニング、自己蒸留、深さに関連する正規化手法である。
サブモデルのコトレーニングは,画像分類やセマンティックセグメンテーションなどの認識タスクのためのバックボーンのトレーニングに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-09T14:38:09Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Semantic decoupled representation learning for remote sensing image
change detection [17.548248093344576]
RS画像CDのセマンティックデカップリング表現学習を提案する。
我々は、セマンティックマスクを利用して、異なるセマンティック領域の表現をアンタングルする。
さらに、下流CDタスクにおける関心対象の認識に役立ち、異なる意味表現を区別するようモデルに強制する。
論文 参考訳(メタデータ) (2022-01-15T07:35:26Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。