論文の概要: Self-supervised Audiovisual Representation Learning for Remote Sensing Data
- arxiv url: http://arxiv.org/abs/2108.00688v2
- Date: Wed, 21 Aug 2024 11:39:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 20:22:50.250689
- Title: Self-supervised Audiovisual Representation Learning for Remote Sensing Data
- Title(参考訳): リモートセンシングデータのための自己教師付き視覚情報表現学習
- Authors: Konrad Heidler, Lichao Mou, Di Hu, Pu Jin, Guangyao Li, Chuang Gan, Ji-Rong Wen, Xiao Xiang Zhu,
- Abstract要約: 遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 96.23611272637943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many current deep learning approaches make extensive use of backbone networks pre-trained on large datasets like ImageNet, which are then fine-tuned to perform a certain task. In remote sensing, the lack of comparable large annotated datasets and the wide diversity of sensing platforms impedes similar developments. In order to contribute towards the availability of pre-trained backbone networks in remote sensing, we devise a self-supervised approach for pre-training deep neural networks. By exploiting the correspondence between geo-tagged audio recordings and remote sensing imagery, this is done in a completely label-free manner, eliminating the need for laborious manual annotation. For this purpose, we introduce the SoundingEarth dataset, which consists of co-located aerial imagery and audio samples all around the world. Using this dataset, we then pre-train ResNet models to map samples from both modalities into a common embedding space, which encourages the models to understand key properties of a scene that influence both visual and auditory appearance. To validate the usefulness of the proposed approach, we evaluate the transfer learning performance of pre-trained weights obtained against weights obtained through other means. By fine-tuning the models on a number of commonly used remote sensing datasets, we show that our approach outperforms existing pre-training strategies for remote sensing imagery. The dataset, code and pre-trained model weights will be available at https://github.com/khdlr/SoundingEarth.
- Abstract(参考訳): 現在のディープラーニングアプローチの多くは、ImageNetのような大規模なデータセットで事前トレーニングされたバックボーンネットワークを広範囲に使用して、特定のタスクを実行するように微調整されている。
リモートセンシングでは、比較可能な大きな注釈付きデータセットの欠如と、さまざまなセンシングプラットフォームが、同様の開発を妨げる。
リモートセンシングにおける事前学習されたバックボーンネットワークの実現に寄与するため,我々は,深層ニューラルネットワークを事前学習するための自己教師型アプローチを考案した。
ジオタグ付きオーディオ記録とリモートセンシング画像との対応を利用して、これは完全にラベルのない方法で行われ、面倒な手作業によるアノテーションは不要である。
この目的のために、世界中の空中画像とオーディオサンプルを同時配置したSoundingEarthデータセットを紹介した。
このデータセットを用いて、私たちはResNetモデルをトレーニングし、両方のモダリティから共通の埋め込み空間にサンプルをマッピングする。
提案手法の有効性を検証するため,他の手法により得られた重みに対して得られた事前学習重みの伝達学習性能を評価する。
一般的なリモートセンシングデータセットでモデルを微調整することにより、我々のアプローチは、リモートセンシング画像のための既存の事前学習戦略よりも優れていることを示す。
データセット、コード、事前トレーニングされたモデルの重み付けはhttps://github.com/khdlr/SoundingEarth.comで入手できる。
関連論文リスト
- Rethinking the Key Factors for the Generalization of Remote Sensing Stereo Matching Networks [15.456986824737067]
ステレオマッチングタスクは高価な空中LiDARデータに依存している。
本稿では,3つの視点から重要なトレーニング要因について検討する。
一般化性能のよい教師なしステレオマッチングネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-14T15:26:10Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Clustering augmented Self-Supervised Learning: Anapplication to Land
Cover Mapping [10.720852987343896]
本稿では,自己教師型学習のためのクラスタリングに基づくプレテキストタスクを用いて,土地被覆マッピングの新しい手法を提案する。
社会的に関係のある2つのアプリケーションに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-08-16T19:35:43Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Retrieval Augmentation to Improve Robustness and Interpretability of
Deep Neural Networks [3.0410237490041805]
本研究では,深層ニューラルネットワークの堅牢性と解釈性を改善するために,トレーニングデータを積極的に活用する。
具体的には、LSTMモデルのメモリ状態を初期化したり、注意機構を誘導するために、最も近い入力例のターゲットを用いる。
その結果,Flickr8 と IMDB の2つのタスクに対して提案したモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-02-25T17:38:31Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Training general representations for remote sensing using in-domain
knowledge [23.741188128379893]
本稿では,一般的なリモートセンシング表現の開発について検討する。
データセットが表現学習の優れた情報源となるために、どのような特性が重要であるかを探る。
論文 参考訳(メタデータ) (2020-09-30T15:00:07Z) - Deep Learning based Segmentation of Fish in Noisy Forward Looking MBES
Images [1.5469452301122177]
セマンティックセグメンテーションのためのディープラーニング(DL)と畳み込みニューラルネットワーク(CNN)の最近の進歩に基づいて構築する。
画像ソナーによって投影される全ての射程方位位置に対する魚・魚・魚の確率予測のためのエンドツーエンドのアプローチを実証する。
我々は,本モデルが所望のパフォーマンスを証明し,意味的文脈の重要性を活用することを学習したことを示す。
論文 参考訳(メタデータ) (2020-06-16T09:57:38Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。