論文の概要: TOV: The Original Vision Model for Optical Remote Sensing Image
Understanding via Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2204.04716v1
- Date: Sun, 10 Apr 2022 16:25:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 10:46:53.493157
- Title: TOV: The Original Vision Model for Optical Remote Sensing Image
Understanding via Self-supervised Learning
- Title(参考訳): TOV:自己教師型学習による光リモートセンシング画像理解のためのオリジナルビジョンモデル
- Authors: Chao Tao, Ji Qia, Guo Zhang, Qing Zhu, Weipeng Lu, Haifeng Li
- Abstract要約: リモートセンシングにおけるtextbfOriginal textbfVision Model (TOV) を提案する。
人のような自己教師付き学習経路に沿って、巨大なラベルのない光学データによって訓練されたTOVモデルは、様々なRSIUタスクに容易に適応できる。
RSIUのTOVモデル構築における2つの要因の影響を分析する。
- 参考スコア(独自算出の注目度): 13.57667361338603
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Do we on the right way for remote sensing image understanding (RSIU) by
training models via supervised data-dependent and task-dependent way, instead
of human vision in a label-free and task-independent way? We argue that a more
desirable RSIU model should be trained with intrinsic structure from data
rather that extrinsic human labels to realize generalizability across a wide
range of RSIU tasks. According to this hypothesis, we proposed \textbf{T}he
\textbf{O}riginal \textbf{V}ision model (TOV) in remote sensing filed. Trained
by massive unlabeled optical data along a human-like self-supervised learning
(SSL) path that is from general knowledge to specialized knowledge, TOV model
can be easily adapted to various RSIU tasks, including scene classification,
object detection, and semantic segmentation, and outperforms dominant ImageNet
supervised pretrained method as well as two recently proposed SSL pretrained
methods on majority of 12 publicly available benchmarks. Moreover, we analyze
the influences of two key factors on the performance of building TOV model for
RSIU, including the influence of using different data sampling methods and the
selection of learning paths during self-supervised optimization. We believe
that a general model which is trained by a label-free and task-independent way
may be the next paradigm for RSIU and hope the insights distilled from this
study can help to foster the development of an original vision model for RSIU.
- Abstract(参考訳): ラベルなしおよびタスク非依存の方法で人間の視覚ではなく、教師付きデータ依存およびタスク依存の方法でモデルをトレーニングすることで、リモートセンシングイメージ理解(rsiu)を適切な方法で実現するか?
我々は、より望ましいRSIUモデルが、より広範囲のRSIUタスクにまたがる一般化を実現するために、外在的な人間ラベルよりも、データから本質的な構造で訓練されるべきであると主張している。
本仮説では, リモートセンシングにより, テキストbf{T}he \textbf{O}riginal \textbf{V}ision Model (TOV) を提案した。
ヒューマンライクな自己教師あり学習(SSL)パスに沿った大規模な未ラベルの光学データによって訓練されたTOVモデルは、シーン分類、オブジェクト検出、セマンティックセグメンテーションを含む様々なRSIUタスクに容易に適応でき、支配的なImageNetの教師あり事前訓練手法と、最近提案されたSSL事前訓練手法を12の公開ベンチマークのほとんどで上回る。
さらに, RSIUのTOVモデル構築における2つの要因の影響を解析し, 異なるデータサンプリング手法を用いることによる影響や, 自己監督最適化における学習経路の選択などを検討した。
ラベルフリーでタスク非依存な方法で訓練された一般的なモデルは、RSIUの次のパラダイムであり、この研究から得られた知見がRSIUのオリジナルビジョンモデルの開発を促進することを願っている。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Robust Training of Federated Models with Extremely Label Deficiency [84.00832527512148]
フェデレーション半教師付き学習(FSSL)は、ラベル不足を伴う分散データを用いて機械学習モデルを協調訓練するための強力なパラダイムとして登場した。
我々は,ラベル付きおよびラベルなしデータの異なる視点から洞察を提供することにより相互指導を強化するために,ツインサイトと呼ばれる新しいツインモデルパラダイムを提案する。
4つのベンチマークデータセットに関する包括的な実験は、Twin-sightが様々な実験環境において最先端の手法を著しく上回っていることを示す重要な証拠となる。
論文 参考訳(メタデータ) (2024-02-22T10:19:34Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - In-Domain Self-Supervised Learning Improves Remote Sensing Image Scene
Classification [5.323049242720532]
リモートセンシング画像分類のための有望なアプローチとして,自己教師付き学習が登場している。
そこで本研究では,14の下流データセットにまたがる自己教師型事前学習戦略について検討し,その効果を評価する。
論文 参考訳(メタデータ) (2023-07-04T10:57:52Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Self-Supervised Visual Representation Learning Using Lightweight
Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。
我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。
我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文 参考訳(メタデータ) (2021-10-21T14:13:10Z) - Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文 参考訳(メタデータ) (2020-07-15T15:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。