Fugu-MT 論文翻訳(概要): Pattern Integration and Enhancement Vision Transformer for Self-Supervised Learning in Remote Sensing

論文の概要: Pattern Integration and Enhancement Vision Transformer for Self-Supervised Learning in Remote Sensing

arxiv url: http://arxiv.org/abs/2411.06091v1
Date: Sat, 09 Nov 2024 07:06:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.053034
Title: Pattern Integration and Enhancement Vision Transformer for Self-Supervised Learning in Remote Sensing
Title（参考訳）: リモートセンシングにおける自己監督型学習のためのパターン統合と拡張ビジョン変換器
Authors: Kaixuan Lu, Ruiqian Zhang, Xiao Huang, Yuxing Xie, Xiaogang Ning, Hanchao Zhang, Mengke Yuan, Pan Zhang, Tao Wang, Tongkui Liao,
Abstract要約: 本稿では、リモートセンシング画像のための新しい自己教師型学習フレームワークであるPattern Integration and Enhancement Vision Transformer(PIEViT)を紹介する。 PIEViTは内部パッチ機能の表現を強化し、既存の自己管理ベースラインよりも大幅に改善されている。オブジェクト検出、土地被覆分類、変更検出において優れた結果が得られ、リモートセンシング画像解釈タスクの堅牢性、一般化、転送性などが評価される。
参考スコア（独自算出の注目度）: 11.626527403157922
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent self-supervised learning (SSL) methods have demonstrated impressive results in learning visual representations from unlabeled remote sensing images. However, most remote sensing images predominantly consist of scenographic scenes containing multiple ground objects without explicit foreground targets, which limits the performance of existing SSL methods that focus on foreground targets. This raises the question: Is there a method that can automatically aggregate similar objects within scenographic remote sensing images, thereby enabling models to differentiate knowledge embedded in various geospatial patterns for improved feature representation? In this work, we present the Pattern Integration and Enhancement Vision Transformer (PIEViT), a novel self-supervised learning framework designed specifically for remote sensing imagery. PIEViT utilizes a teacher-student architecture to address both image-level and patch-level tasks. It employs the Geospatial Pattern Cohesion (GPC) module to explore the natural clustering of patches, enhancing the differentiation of individual features. The Feature Integration Projection (FIP) module further refines masked token reconstruction using geospatially clustered patches. We validated PIEViT across multiple downstream tasks, including object detection, semantic segmentation, and change detection. Experiments demonstrated that PIEViT enhances the representation of internal patch features, providing significant improvements over existing self-supervised baselines. It achieves excellent results in object detection, land cover classification, and change detection, underscoring its robustness, generalization, and transferability for remote sensing image interpretation tasks.
Abstract（参考訳）: 最近の自己教師付き学習(SSL)法は、ラベルのないリモートセンシング画像から視覚表現を学習する際、目覚しい結果を示している。しかし、ほとんどのリモートセンシング画像は、露骨なフォアグラウンドターゲットを持たない複数のグラウンドオブジェクトを含む風景シーンで構成されており、フォアグラウンドターゲットにフォーカスする既存のSSLメソッドのパフォーマンスを制限している。これにより、様々な地理空間パターンに埋め込まれた知識を識別し、特徴表現を改善することができる。本研究では、リモートセンシング画像に特化して設計された、新しい自己教師型学習フレームワークであるPattern Integration and Enhancement Vision Transformer(PIEViT)を紹介する。 PIEViTは、イメージレベルとパッチレベルの両方のタスクに対処するために教師学生アーキテクチャを利用する。 Geospatial Pattern Cohesion(GPC)モジュールを使用して、パッチの自然なクラスタリングを探索し、個々の特徴の区別を強化する。 Feature Integration Projection (FIP)モジュールは、地理的にクラスタ化されたパッチを使用して、マスク付きトークンの再構築をさらに洗練する。我々は、オブジェクト検出、セマンティックセグメンテーション、変更検出など、複数の下流タスクでPIEViTを検証する。実験の結果、PIEViTは内部のパッチ機能の表現を強化し、既存の自己管理ベースラインよりも大幅に改善された。オブジェクト検出、土地被覆分類、変更検出において優れた結果が得られ、リモートセンシング画像解釈タスクの堅牢性、一般化、転送性などが評価される。

関連論文リスト

HEAP: Unsupervised Object Discovery and Localization with Contrastive Grouping [29.678756772610797]
教師なしオブジェクトの発見と位置決めは、監督なしで画像内のオブジェクトを検出し、セグメント化することを目的としている。近年の取り組みは、自己監督型トランスフォーマー機能を利用して、有能な前景物体を識別する顕著な可能性を実証している。これらの問題に対処するために、Herarchical mErging framework via contrAstive grouPing (HEAP) を紹介する。
論文参考訳（メタデータ） (2023-12-29T06:46:37Z)
TransY-Net:Learning Fully Transformer Networks for Change Detection of Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文参考訳（メタデータ） (2023-10-22T07:42:19Z)
CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。 CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文参考訳（メタデータ） (2023-09-28T18:04:43Z)
Masked Momentum Contrastive Learning for Zero-shot Semantic Understanding [39.424931953675994]
自己教師付き事前学習(SSP)は、ラベル付きデータなしで有意義な特徴表現を抽出できる機械学習の一般的な手法として登場した。本研究は、コンピュータビジョンタスクにおける純粋な自己教師付き学習(SSL)技術の有効性を評価する。
論文参考訳（メタデータ） (2023-08-22T13:55:57Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
RRSIS: Referring Remote Sensing Image Segmentation [25.538406069768662]
リモートセンシング画像から所望のオブジェクトをローカライズすることは、実用的な用途において非常に有用である。与えられた表現が参照する対象を分割することを目的とした画像分割の参照は、自然画像において広範囲に研究されている。本稿では、このギャップを埋めるため、リモートセンシング画像セグメンテーション(RRSIS)を紹介し、洞察に富んだ探索を行う。
論文参考訳（メタデータ） (2023-06-14T16:40:19Z)
De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文参考訳（メタデータ） (2023-03-29T18:07:25Z)
Transformation-Invariant Network for Few-Shot Object Detection in Remote Sensing Images [15.251042369061024]
FSOD(Few-shot Object Detection)は、トレーニングのために大量のラベル付きデータを頼りにしている。リモートセンシング画像におけるオブジェクトのスケールと向きのバリエーションは、既存のFSOD法に重大な課題をもたらす。特徴ピラミッドネットワークの統合と,クエリ機能向上のためのプロトタイプ機能の利用を提案する。
論文参考訳（メタデータ） (2023-03-13T02:21:38Z)
ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文参考訳（メタデータ） (2022-03-28T12:27:34Z)
Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文参考訳（メタデータ） (2021-02-16T17:58:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。