論文の概要: Self-Supervised Masked Digital Elevation Models Encoding for
Low-Resource Downstream Tasks
- arxiv url: http://arxiv.org/abs/2309.03367v1
- Date: Wed, 6 Sep 2023 21:20:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 14:59:01.621307
- Title: Self-Supervised Masked Digital Elevation Models Encoding for
Low-Resource Downstream Tasks
- Title(参考訳): 低リソースダウンストリームタスクのための自己改善型マスクデジタル標高モデル
- Authors: Priyam Mazumdar, Aiman Soliman, Volodymyr Kindratenko, Luigi Marini,
Kenton McHenry
- Abstract要約: GeoAIは、何十年にもわたって収集されてきたデータのために、自己管理の方法論を活用することができる。
提案されたアーキテクチャは、ImageNetで事前トレーニングされたMasked Autoencoderである。
- 参考スコア(独自算出の注目度): 0.6374763930914523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lack of quality labeled data is one of the main bottlenecks for training
Deep Learning models. As the task increases in complexity, there is a higher
penalty for overfitting and unstable learning. The typical paradigm employed
today is Self-Supervised learning, where the model attempts to learn from a
large corpus of unstructured and unlabeled data and then transfer that
knowledge to the required task. Some notable examples of self-supervision in
other modalities are BERT for Large Language Models, Wav2Vec for Speech
Recognition, and the Masked AutoEncoder for Vision, which all utilize
Transformers to solve a masked prediction task. GeoAI is uniquely poised to
take advantage of the self-supervised methodology due to the decades of data
collected, little of which is precisely and dependably annotated. Our goal is
to extract building and road segmentations from Digital Elevation Models (DEM)
that provide a detailed topography of the earths surface. The proposed
architecture is the Masked Autoencoder pre-trained on ImageNet (with the
limitation that there is a large domain discrepancy between ImageNet and DEM)
with an UperNet Head for decoding segmentations. We tested this model with 450
and 50 training images only, utilizing roughly 5% and 0.5% of the original data
respectively. On the building segmentation task, this model obtains an 82.1%
Intersection over Union (IoU) with 450 Images and 69.1% IoU with only 50
images. On the more challenging road detection task the model obtains an 82.7%
IoU with 450 images and 73.2% IoU with only 50 images. Any hand-labeled dataset
made today about the earths surface will be immediately obsolete due to the
constantly changing nature of the landscape. This motivates the clear necessity
for data-efficient learners that can be used for a wide variety of downstream
tasks.
- Abstract(参考訳): ラベル付きデータの品質の欠如は、ディープラーニングモデルをトレーニングするための大きなボトルネックの1つです。
タスクが複雑化するにつれて、過剰適合と不安定な学習に対するペナルティが高くなる。
今日の典型的なパラダイムは自己監督学習(Self-Supervised Learning)であり、モデルが非構造化データとラベルなしデータの大規模なコーパスから学習を試み、その知識を必要なタスクに伝達する。
他のモダリティにおける自己スーパービジョンの例としては、大きな言語モデルのためのBERT、音声認識のためのWav2Vec、そして全てトランスフォーマーを使用してマスク付き予測タスクを解決するMasked AutoEncoderがある。
GeoAIは、何十年にもわたって収集されてきたデータから、自己管理の方法論を活用することができる。
我々のゴールは、地表面の詳細な地形を提供するDEM(Digital Elevation Models)から建物と道路のセグメンテーションを抽出することである。
提案したアーキテクチャは、ImageNet上で事前訓練されたMasked Autoencoderであり(ImageNetとDEMの間に大きなドメイン差があるという制限がある)、セグメントをデコードするためのUperNet Headを備えている。
約5%と0.5%のデータをそれぞれ活用し,450および50のトレーニング画像のみを用いて実験を行った。
建物のセグメンテーションタスクでは、450枚の画像と69.1%のIoUと50枚の画像しか持たない82.1%のIntersection over Union (IoU)が得られる。
より困難な道路検出タスクでは、450枚の画像で82.7%のIoU、わずか50枚の画像で73.2%のIoUが得られる。
今日の地球表面に関する手書きのデータセットは、常に変化する地形の性質のために、すぐに時代遅れになる。
これにより、さまざまなダウンストリームタスクに使用できるデータ効率の学習者の必要性が明確になる。
関連論文リスト
- UnSeg: One Universal Unlearnable Example Generator is Enough against All Image Segmentation [64.01742988773745]
未承認のプライベートデータ上での大規模なイメージセグメンテーションモデルのトレーニングに関して、プライバシーに関する懸念が高まっている。
我々は、学習不可能な例の概念を利用して、学習不可能なノイズを原画像に生成し、付加することにより、モデルトレーニングに使用不能な画像を作成する。
6つのメインストリームイメージセグメンテーションタスク、10つの広く使われているデータセット、7つの異なるネットワークアーキテクチャでUnSegの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-13T16:34:46Z) - Self-Supervised Versus Supervised Training for Segmentation of Organoid
Images [2.6242820867975127]
大量の顕微鏡画像データセットがラベル付けされていないままであり、ディープラーニングアルゴリズムによる効果的な利用を妨げている。
自己教師付き学習(SSL)は、ラベルを必要とせずにメインタスクに類似したプリテキストタスクの下で固有の特徴を学習する、有望なソリューションである。
ResNet50 U-Netは、構造化類似度指数(Structure similarity Index Metric, SSIM)だけで、L1損失と組み合わせてSSIMを用いて、肝臓前駆体オルガノイドのイメージを拡張画像から復元する訓練が最初に行われた。
比較のために、同じU-Netアーキテクチャを使って、2つの教師付きモデルをトレーニングしました。
論文 参考訳(メタデータ) (2023-11-19T01:57:55Z) - No Data Augmentation? Alternative Regularizations for Effective Training
on Small Datasets [0.0]
我々は、小さな画像分類データセットにおける教師あり学習の限界を推し進めるために、代替正規化戦略について研究する。
特に,モデルパラメータのノルムを通した最適学習率と重み減衰対の選択に非依存を用いる。
テスト精度は66.5%に達し、最先端の手法に匹敵する。
論文 参考訳(メタデータ) (2023-09-04T16:13:59Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - Highly Accurate Dichotomous Image Segmentation [139.79513044546]
Dichotomous Image segmentation (DIS)と呼ばれる新しいタスクは、自然画像から高度に正確な物体を抽出することを目的としている。
私たちは、5,470の高解像度画像(例えば、2K、4K以上の画像)を含む最初の大規模データセットdis5Kを収集します。
また、Disdisモデルトレーニングのための特徴レベルとマスクレベルの両方のガイダンスを用いて、単純な中間監視ベースライン(IS-Net)を導入する。
論文 参考訳(メタデータ) (2022-03-06T20:09:19Z) - One Model is All You Need: Multi-Task Learning Enables Simultaneous
Histology Image Segmentation and Classification [3.8725005247905386]
組織領域のセグメンテーションと分類のためのマルチタスク学習手法を提案する。
一つのネットワークで同時予測を可能にする。
また,機能共有の結果,学習した表現が下流タスクの改善に有効であることを示す。
論文 参考訳(メタデータ) (2022-02-28T20:22:39Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Learning Transferable Visual Models From Natural Language Supervision [13.866297967166089]
画像に関する生のテキストから直接学ぶことは、有望な代替手段だ。
本研究では,どのキャプションがどの画像で動くかを予測する単純な事前学習タスクが,効率よく,スケーラブルな学習方法であることを実証する。
SOTA画像表現は、インターネットから収集された4億(画像、テキスト)のデータセットから学習される。
論文 参考訳(メタデータ) (2021-02-26T19:04:58Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。