論文の概要: Self-supervised Vision Transformers for Joint SAR-optical Representation
Learning
- arxiv url: http://arxiv.org/abs/2204.05381v1
- Date: Mon, 11 Apr 2022 19:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 06:38:54.349494
- Title: Self-supervised Vision Transformers for Joint SAR-optical Representation
Learning
- Title(参考訳): sar-optical representation learningのための自己教師付き視覚トランスフォーマ
- Authors: Yi Wang, Conrad M Albrecht, Xiao Xiang Zhu
- Abstract要約: 自己教師付き学習(SSL)はリモートセンシングと地球観測に大きな関心を集めている。
共同SAR-光表現学習における視覚変換器(ViT)の可能性について検討する。
最先端のSSLアルゴリズムであるDINOに基づいて、SARと光学画像を組み合わせて、全てのチャネルを統一的な入力に結合する。
- 参考スコア(独自算出の注目度): 19.316112344900638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) has attracted much interest in remote sensing
and earth observation due to its ability to learn task-agnostic representations
without human annotation. While most of the existing SSL works in remote
sensing utilize ConvNet backbones and focus on a single modality, we explore
the potential of vision transformers (ViTs) for joint SAR-optical
representation learning. Based on DINO, a state-of-the-art SSL algorithm that
distills knowledge from two augmented views of an input image, we combine SAR
and optical imagery by concatenating all channels to a unified input.
Subsequently, we randomly mask out channels of one modality as a data
augmentation strategy. While training, the model gets fed optical-only,
SAR-only, and SAR-optical image pairs learning both inner- and intra-modality
representations. Experimental results employing the BigEarthNet-MM dataset
demonstrate the benefits of both, the ViT backbones and the proposed multimodal
SSL algorithm DINO-MM.
- Abstract(参考訳): 自己教師付き学習(SSL)は、人間のアノテーションを使わずにタスク非依存の表現を学習できることから、リモートセンシングと地球観測に大きな関心を集めている。
既存のSSLの多くは、ConvNetのバックボーンを利用しており、単一のモダリティに重点を置いているが、我々は共同でSAR-光表現学習を行うためのビジョントランスフォーマー(ViT)の可能性を探る。
入力画像の2つの拡張ビューから知識を蒸留する最先端sslアルゴリズムであるdinoに基づいて,全チャネルを統一入力に結合することでsarと光学画像を統合する。
その後、データ拡張戦略として、1つのモードのチャネルをランダムにマスキングする。
トレーニング中、モデルは光のみ、SARのみ、およびSAR-光画像ペアに内部モードと内部モードの両方の表現を学習する。
BigEarthNet-MMデータセットを用いた実験結果は、ViTバックボーンと提案したマルチモーダルSSLアルゴリズムDINO-MMの両方の利点を示している。
関連論文リスト
- SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - Dcl-Net: Dual Contrastive Learning Network for Semi-Supervised
Multi-Organ Segmentation [12.798684146496754]
半教師型MOSのための2段階のDual Contrastive Learning Networkを提案する。
ステージ1では、画像間の暗黙的な連続性と類似性を調べるために、類似性に基づくグローバルコントラスト学習を開発する。
ステージ2では,クラス表現をさらに惹きつけるために,臓器を意識した局所的コントラスト学習を提案する。
論文 参考訳(メタデータ) (2024-03-06T07:39:33Z) - Semi-Mamba-UNet: Pixel-Level Contrastive and Pixel-Level Cross-Supervised Visual Mamba-based UNet for Semi-Supervised Medical Image Segmentation [11.637738540262797]
本研究では,従来のCNNベースのUNetと純粋に視覚的なMambaベースのエンコーダデコーダアーキテクチャを組み込んだセミマンバUNetを,半教師付き学習フレームワークに統合する。
この革新的なSSLアプローチは、両方のネットワークを利用して擬似ラベルを生成し、ピクセルレベルで相互に相互に監督する。
本稿では,2対のプロジェクタを用いた自己教師型画素レベルのコントラスト学習戦略を導入し,特徴学習機能をさらに強化する。
論文 参考訳(メタデータ) (2024-02-11T17:09:21Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - CMID: A Unified Self-Supervised Learning Framework for Remote Sensing
Image Understanding [20.2438336674081]
CMID(Contrastive Mask Image Distillation)は,大域的意味分離性と局所空間認識性の両方で表現を学習することができる。
CMIDは畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)の両方と互換性がある
CMIDを用いて事前訓練されたモデルは、複数のダウンストリームタスクにおける他の最先端SSLメソッドよりも優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-19T13:58:31Z) - Leveraging the Third Dimension in Contrastive Learning [88.17394309208925]
SSL(Self-Supervised Learning)メソッドは、ラベルのないデータでダウンストリームタスクに有用な堅牢な表現を学習する。
これらの拡張は、生物学的ビジョンが没入的な3次元、時間的に連続した環境で起こるという事実を無視している。
SSLフレームワークにディープシグナルを組み込むための2つの異なるアプローチについて検討する。
論文 参考訳(メタデータ) (2023-01-27T15:45:03Z) - Self-Supervised Learning for Invariant Representations from
Multi-Spectral and SAR Images [5.994412766684843]
自己監視学習(SSL)は、いくつかのドメイン分類とセグメンテーションタスクにおいて、新しい最先端技術となっている。
本研究は, リモートセンシング(RS)領域に蒸留ネットワーク(BYOL)を適用したRSDnetを提案する。
論文 参考訳(メタデータ) (2022-05-04T13:16:48Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Contrastive Multiview Coding with Electro-optics for SAR Semantic
Segmentation [0.6445605125467573]
SARセマンティックセグメンテーションのためのマルチモーダル表現学習を提案する。
従来の研究とは異なり,本手法ではEO画像,SAR画像,ラベルマスクを併用した。
いくつかの実験により,本手法はモデル性能,サンプル効率,収束速度において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-31T23:55:41Z) - ZS-SLR: Zero-Shot Sign Language Recognition from RGB-D Videos [49.337912335944026]
ゼロショット手話認識(ZS-SLR)の問題を定式化し、RGBとDepthの2つの入力モードから2つのストリームモデルを提案する。
視覚変換機能を活用するために,人間の検出と視覚特徴表現に2つの視覚変換モデルを用いる。
視覚変換器とLSTMネットワークを用いて人体からの時間的表現を得る。
論文 参考訳(メタデータ) (2021-08-23T10:48:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。