Fugu-MT 論文翻訳(概要): Extending global-local view alignment for self-supervised learning with remote sensing imagery

論文の概要: Extending global-local view alignment for self-supervised learning with remote sensing imagery

arxiv url: http://arxiv.org/abs/2303.06670v2
Date: Wed, 24 Apr 2024 03:28:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-27 00:27:30.860768
Title: Extending global-local view alignment for self-supervised learning with remote sensing imagery
Title（参考訳）: リモートセンシング画像を用いた自己教師型学習のためのグローバル・ローカル・ビューアライメントの拡張
Authors: Xinye Wanyan, Sachith Seneviratne, Shuchang Shen, Michael Kirley,
Abstract要約: 自己教師付きモデルは、大量のラベルのないデータに対して擬似ラベルを生成するプレテキストタスクを定式化することにより、一般的な特徴表現を取得する。 DINOに触発されて、リモートセンシング画像(SSLRS)を用いた自己教師型学習のための2つのプレテキストタスクを定式化した。我々は,DINOを拡張し,単一の固定サイズではなく,様々な大きさの作物の局所的なビューを利用するDINO-MCを提案する。
参考スコア（独自算出の注目度）: 1.5192294544599656
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Since large number of high-quality remote sensing images are readily accessible, exploiting the corpus of images with less manual annotation draws increasing attention. Self-supervised models acquire general feature representations by formulating a pretext task that generates pseudo-labels for massive unlabeled data to provide supervision for training. While prior studies have explored multiple self-supervised learning techniques in remote sensing domain, pretext tasks based on local-global view alignment remain underexplored, despite achieving state-of-the-art results on natural imagery. Inspired by DINO, which employs an effective representation learning structure with knowledge distillation based on global-local view alignment, we formulate two pretext tasks for self-supervised learning on remote sensing imagery (SSLRS). Using these tasks, we explore the effectiveness of positive temporal contrast as well as multi-sized views on SSLRS. We extend DINO and propose DINO-MC which uses local views of various sized crops instead of a single fixed size in order to alleviate the limited variation in object size observed in remote sensing imagery. Our experiments demonstrate that even when pre-trained on only 10% of the dataset, DINO-MC performs on par or better than existing state-of-the-art SSLRS methods on multiple remote sensing tasks, while using less computational resources. All codes, models, and results are released at https://github.com/WennyXY/DINO-MC.
Abstract（参考訳）: 多数の高品質なリモートセンシング画像が容易にアクセス可能であるため、手動によるアノテーションの少ない画像のコーパスを利用すると注目が集まる。自己教師付きモデルは、大量のラベルのないデータに対して擬似ラベルを生成するプレテキストタスクを定式化し、訓練のための監督を提供することで、一般的な特徴表現を取得する。従来の研究では、リモートセンシング領域における複数の自己教師付き学習手法が検討されてきたが、自然画像に関する最先端の結果が得られたにもかかわらず、局所的な視点のアライメントに基づくプレテキストタスクは未探索のままである。グローバル・ローカル・ビューアライメントに基づく知識蒸留による効果的な表現学習構造を取り入れたDINOに着想を得て,リモートセンシング画像(SSLRS)を用いた自己教師型学習のための2つのプレテキストタスクを定式化した。これらのタスクを用いて、SSLRSのマルチサイズビューと同様に、正の時間的コントラストの有効性について検討する。我々は,DINOを拡張し,DINO-MCを提案する。DINO-MCは,リモートセンシング画像で観測される物体の大きさの限られた変化を緩和するために,単一の固定サイズではなく,様々な大きさの作物の局所的なビューを使用する。我々の実験は、データセットの10%しか事前トレーニングしていない場合でも、DINO-MCは計算資源を少ないまま、複数のリモートセンシングタスクにおいて既存の最先端SSLRSメソッドと同等かそれ以上の性能を発揮することを示した。すべてのコード、モデル、結果はhttps://github.com/WennyXY/DINO-MCで公開される。

関連論文リスト

Pattern Integration and Enhancement Vision Transformer for Self-Supervised Learning in Remote Sensing [11.626527403157922]
本稿では、リモートセンシング画像のための新しい自己教師型学習フレームワークであるPattern Integration and Enhancement Vision Transformer(PIEViT)を紹介する。 PIEViTは内部パッチ機能の表現を強化し、既存の自己管理ベースラインよりも大幅に改善されている。オブジェクト検出、土地被覆分類、変更検出において優れた結果が得られ、リモートセンシング画像解釈タスクの堅牢性、一般化、転送性などが評価される。
論文参考訳（メタデータ） (2024-11-09T07:06:31Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。 RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文参考訳（メタデータ） (2024-04-03T12:06:01Z)
CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。 CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文参考訳（メタデータ） (2023-09-28T18:04:43Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Domain Adaptable Self-supervised Representation Learning on Remote Sensing Satellite Imagery [2.796274924103132]
本研究は,リモートセンシング衛星データを用いたコントラスト型自己教師型表現学習と知識伝達のための新しい領域パラダイムを提案する。提案手法は,異なるソースおよび対象データ分布にまたがる自己教師付き表現の知識伝達について検討する。 UC Merced Landuse (UCMD)、SIRI-WHU、MLRSNetの3つの公開データセットで実験が行われた。
論文参考訳（メタデータ） (2023-04-19T14:32:36Z)
Evaluating the Label Efficiency of Contrastive Self-Supervised Learning for Multi-Resolution Satellite Imagery [0.0]
遠隔センシング領域における自己教師付き学習は、容易に利用可能なラベル付きデータを活用するために応用されている。本稿では,ラベル効率のレンズを用いた自己教師型視覚表現学習について検討する。
論文参考訳（メタデータ） (2022-10-13T06:54:13Z)
Activation to Saliency: Forming High-Quality Labels for Unsupervised Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文参考訳（メタデータ） (2021-12-07T11:54:06Z)
Seasonal Contrast: Unsupervised Pre-Training from Uncurated Remote Sensing Data [64.40187171234838]
季節的コントラスト(SeCo)は、リモートセンシング表現のドメイン内事前トレーニングにラベルのないデータを活用するための効果的なパイプラインである。 SeCoは、転送学習を容易にし、再リモートセンシングアプリケーションの急速な進歩を可能にするために公開されます。
論文参考訳（メタデータ） (2021-03-30T18:26:39Z)
Geography-Aware Self-Supervised Learning [79.4009241781968]
異なる特徴により、標準ベンチマークにおけるコントラスト学習と教師あり学習の間には、非自明なギャップが持続していることが示される。本稿では,リモートセンシングデータの空間的整合性を利用した新しいトレーニング手法を提案する。提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションにおけるコントラスト学習と教師あり学習のギャップを埋めるものである。
論文参考訳（メタデータ） (2020-11-19T17:29:13Z)
Remote Sensing Image Scene Classification with Self-Supervised Paradigm under Limited Labeled Samples [11.025191332244919]
我々は,大規模なラベル付きデータからRSIシーン分類のための高性能事前学習モデルを得るために,新たな自己教師付き学習(SSL)機構を導入する。一般的な3つのRSIシーン分類データセットの実験により、この新たな学習パラダイムは、従来の支配的なImageNet事前学習モデルよりも優れていることが示された。我々の研究から得られた知見は、リモートセンシングコミュニティにおけるSSLの発展を促進するのに役立ちます。
論文参考訳（メタデータ） (2020-10-02T09:27:19Z)
Learning Invariant Representations for Reinforcement Learning without Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文参考訳（メタデータ） (2020-06-18T17:59:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。