論文の概要: When are Foundation Models Effective? Understanding the Suitability for Pixel-Level Classification Using Multispectral Imagery
- arxiv url: http://arxiv.org/abs/2404.11797v1
- Date: Wed, 17 Apr 2024 23:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 19:50:54.541199
- Title: When are Foundation Models Effective? Understanding the Suitability for Pixel-Level Classification Using Multispectral Imagery
- Title(参考訳): 基礎モデルはいつ有効か?マルチスペクトル画像を用いた画素レベル分類の適合性を理解する
- Authors: Yiqun Xie, Zhihao Wang, Weiye Chen, Zhili Li, Xiaowei Jia, Yanhua Li, Ruichen Wang, Kangyang Chai, Ruohan Li, Sergii Skakun,
- Abstract要約: 非常に大きなディープラーニングモデルであるファンデーションモデルは、様々な言語やビジョンタスクにおいて印象的なパフォーマンスを示してきた。
ファンデーションモデルは、常に異なるリモートセンシングタスクに適した選択肢であり、いつ、いつ、いつ、そうでないか?
本研究の目的は,画素レベルの分類のための基礎モデルの現状と適合性を理解することである。
- 参考スコア(独自算出の注目度): 23.464350453312584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models, i.e., very large deep learning models, have demonstrated impressive performances in various language and vision tasks that are otherwise difficult to reach using smaller-size models. The major success of GPT-type of language models is particularly exciting and raises expectations on the potential of foundation models in other domains including satellite remote sensing. In this context, great efforts have been made to build foundation models to test their capabilities in broader applications, and examples include Prithvi by NASA-IBM, Segment-Anything-Model, ViT, etc. This leads to an important question: Are foundation models always a suitable choice for different remote sensing tasks, and when or when not? This work aims to enhance the understanding of the status and suitability of foundation models for pixel-level classification using multispectral imagery at moderate resolution, through comparisons with traditional machine learning (ML) and regular-size deep learning models. Interestingly, the results reveal that in many scenarios traditional ML models still have similar or better performance compared to foundation models, especially for tasks where texture is less useful for classification. On the other hand, deep learning models did show more promising results for tasks where labels partially depend on texture (e.g., burn scar), while the difference in performance between foundation models and deep learning models is not obvious. The results conform with our analysis: The suitability of foundation models depend on the alignment between the self-supervised learning tasks and the real downstream tasks, and the typical masked autoencoder paradigm is not necessarily suitable for many remote sensing problems.
- Abstract(参考訳): ファウンデーションモデルは、非常に大きなディープラーニングモデルであり、様々な言語や視覚タスクにおいて印象的なパフォーマンスを示しており、それ以外は小型モデルでは到達が困難である。
GPT型言語モデルの主要な成功は特にエキサイティングであり、衛星リモートセンシングを含む他の領域における基礎モデルの可能性への期待を高めている。
このような状況下では、より広範なアプリケーションで機能をテストするための基盤モデルを構築するための大きな努力がなされており、例えば、NASA-IBMのPrithvi、Segment-Anything-Model、ViTなどがあります。
ファンデーションモデルは、常に異なるリモートセンシングタスクに適した選択肢であり、いつ、いつ、いつ、そうでないか?
本研究の目的は、従来の機械学習(ML)モデルと正規サイズのディープラーニングモデルとの比較を通じて、適度な解像度でのマルチスペクトル画像を用いた画素レベルの分類のための基礎モデルの現状と適合性を理解することである。
興味深いことに、多くのシナリオにおいて、従来のMLモデルは基礎モデルとよく似た、あるいは優れたパフォーマンスを示しており、特にテクスチャが分類にあまり役に立たないタスクに対してである。
一方、ディープラーニングモデルは、ラベルが部分的にテクスチャに依存するタスク(例えば、燃える傷など)に対してより有望な結果を示したが、基礎モデルとディープラーニングモデルのパフォーマンスの違いは明らかではない。
基礎モデルの適合性は、自己教師型学習課題と実際の下流課題との整合性に依存し、典型的なマスク付きオートエンコーダパラダイムは、多くのリモートセンシング問題に必ずしも適していない。
関連論文リスト
- FRoundation: Are Foundation Models Ready for Face Recognition? [8.045296450065019]
本稿では,さまざまなレベルのデータ・アベイラビリティーにおいて,顔認識のための基礎モデルの適応性を提案し,実証する。
本研究の結果は, 汎用性にもかかわらず, 事前学習した基礎モデルでは顔認識が不十分であることが示唆された。
微調整ファウンデーションモデルは、トレーニングデータに制限がある場合、しばしばスクラッチからトレーニングされたモデルを上回る、有望な結果をもたらす。
論文 参考訳(メタデータ) (2024-10-31T11:21:21Z) - Enabling Small Models for Zero-Shot Classification through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。
7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文 参考訳(メタデータ) (2024-08-21T09:08:26Z) - Comprehensive Study on Performance Evaluation and Optimization of Model Compression: Bridging Traditional Deep Learning and Large Language Models [0.0]
世界中のコネクテッドデバイスの数の増加は、計算能力の低いローカルデバイスに容易に展開できる圧縮モデルを保証する。
画像分類,オブジェクト検出,言語モデル,生成モデルに基づく問題文に使用される一般的なディープラーニングモデルに対して,量子化とプルーニングの両方を実装した。
論文 参考訳(メタデータ) (2024-07-22T14:20:53Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。
Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。
トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文 参考訳(メタデータ) (2024-05-03T17:00:00Z) - Generalized Relevance Learning Grassmann Quantization [0.0]
イメージ集合をモデル化する一般的な方法は部分空間であり、グラスマン多様体と呼ばれる多様体を形成する。
一般化関連学習ベクトル量子化の応用を拡張して、グラスマン多様体を扱う。
本稿では,手書き文字認識,顔認識,アクティビティ認識,オブジェクト認識など,いくつかのタスクに適用する。
論文 参考訳(メタデータ) (2024-03-14T08:53:01Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Foundation models in brief: A historical, socio-technical focus [2.5991265608180396]
ディープラーニングをスケールアップすることで、将来のAI開発には、ファンデーションモデルが破壊的になる可能性がある。
モデルは自然言語処理やコンピュータビジョンといった分野における様々なタスクにおいて最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-17T22:11:33Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。