論文の概要: Better, Not Just More: Data-Centric Machine Learning for Earth Observation
- arxiv url: http://arxiv.org/abs/2312.05327v3
- Date: Tue, 05 Nov 2024 14:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:57:07.781408
- Title: Better, Not Just More: Data-Centric Machine Learning for Earth Observation
- Title(参考訳): 地球観測のためのデータ中心機械学習
- Authors: Ribana Roscher, Marc Rußwurm, Caroline Gevaert, Michael Kampffmeyer, Jefersson A. dos Santos, Maria Vakalopoulou, Ronny Hänsch, Stine Hansen, Keiller Nogueira, Jonathan Prexl, Devis Tuia,
- Abstract要約: モデル中心の視点から補完的なデータ中心の視点へのシフトは、より正確性、一般化能力、そしてエンドユーザーアプリケーションへの影響を高めるために必要である。
本研究は、地理空間データに対する自動データ中心学習手法の正確な分類と概要と、その定義を提示する。
- 参考スコア(独自算出の注目度): 16.729827218159038
- License:
- Abstract: Recent developments and research in modern machine learning have led to substantial improvements in the geospatial field. Although numerous deep learning architectures and models have been proposed, the majority of them have been solely developed on benchmark datasets that lack strong real-world relevance. Furthermore, the performance of many methods has already saturated on these datasets. We argue that a shift from a model-centric view to a complementary data-centric perspective is necessary for further improvements in accuracy, generalization ability, and real impact on end-user applications. Furthermore, considering the entire machine learning cycle-from problem definition to model deployment with feedback-is crucial for enhancing machine learning models that can be reliable in unforeseen situations. This work presents a definition as well as a precise categorization and overview of automated data-centric learning approaches for geospatial data. It highlights the complementary role of data-centric learning with respect to model-centric in the larger machine learning deployment cycle. We review papers across the entire geospatial field and categorize them into different groups. A set of representative experiments shows concrete implementation examples. These examples provide concrete steps to act on geospatial data with data-centric machine learning approaches.
- Abstract(参考訳): 現代の機械学習における最近の発展と研究は、地理空間分野の大幅な改善につながっている。
多くのディープラーニングアーキテクチャとモデルが提案されているが、その大半は、強力な現実世界の関連性を欠いたベンチマークデータセット上でのみ開発されている。
さらに、これらのデータセットには、すでに多くのメソッドのパフォーマンスが飽和している。
モデル中心の視点から補完的なデータ中心の視点へのシフトは、より正確性、一般化能力、そしてエンドユーザーアプリケーションへの影響を高めるために必要である。
さらに、問題定義からモデル展開までのマシンラーニングサイクル全体を考慮すれば、予期せぬ状況で信頼性の高いマシンラーニングモデルを強化する上で、フィードバックによるモデルデプロイメントが不可欠である。
本研究は、地理空間データに対する自動データ中心学習手法の正確な分類と概要と、その定義を提示する。
これは、より大きな機械学習デプロイメントサイクルにおけるモデル中心の学習に対するデータ中心学習の補完的な役割を強調している。
地理空間領域全体にわたる論文をレビューし、それらを異なるグループに分類する。
代表的な実験のセットは具体的な実装例を示している。
これらの例は、データ中心の機械学習アプローチで地理空間データに作用する具体的なステップを提供する。
関連論文リスト
- Data-Centric Machine Learning for Earth Observation: Necessary and Sufficient Features [5.143097874851516]
モデル記述法を利用して、モデルが最適な性能に達するために必要な特徴を特定する。
一部のデータセットは、時間的なインスタンスの20%未満で最適な精度に達することができるが、他のデータセットでは、1つのモダリティから1つのバンドの時系列が十分である。
論文 参考訳(メタデータ) (2024-08-21T07:26:43Z) - A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data [9.57464542357693]
実世界のモデリングパイプラインは、しばしばデータセット固有の前処理と特徴工学を必要とするため、モデル中心の評価は偏りがあることを実証する。
Kaggleコンペティションから10の関連するデータセットを選択し、データセット毎に専門家レベルの前処理パイプラインを実装します。
データセット固有の機能エンジニアリングの後、モデルランキングは大幅に変化し、性能差が減少し、モデル選択の重要性が低下する。
論文 参考訳(メタデータ) (2024-07-02T09:54:39Z) - TSPP: A Unified Benchmarking Tool for Time-series Forecasting [3.5415344166235534]
本稿では,時系列予測モデルの開発に係わる重要なモデリングと機械学習の決定を明らかにする,統一的なベンチマークフレームワークを提案する。
このフレームワークは、モデルとデータセットのシームレスな統合を促進し、実践者と研究者の両方が開発作業を支援する。
このフレームワーク内で最近提案されたモデルをベンチマークし、最小限の努力で注意深く実装されたディープラーニングモデルは、勾配決定木に匹敵する可能性があることを実証した。
論文 参考訳(メタデータ) (2023-12-28T16:23:58Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Robust Computer Vision in an Ever-Changing World: A Survey of Techniques
for Tackling Distribution Shifts [20.17397328893533]
AIアプリケーションは、ますます一般大衆に注目を集めている。
コンピュータビジョンモデルに関する理論的な仮定と、それらのモデルが現実世界に展開する際に直面する現実との間には、顕著なギャップがある。
このギャップの重要な理由の1つは、分散シフトとして知られる難しい問題である。
論文 参考訳(メタデータ) (2023-12-03T23:40:12Z) - Large Models for Time Series and Spatio-Temporal Data: A Survey and
Outlook [95.32949323258251]
時系列データ、特に時系列データと時間時間データは、現実世界のアプリケーションで広く使われている。
大規模言語やその他の基礎モデルの最近の進歩は、時系列データマイニングや時間データマイニングでの使用の増加に拍車を掛けている。
論文 参考訳(メタデータ) (2023-10-16T09:06:00Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - A Topological-Framework to Improve Analysis of Machine Learning Model
Performance [5.3893373617126565]
本稿では、データセットをモデルが動作する「空間」として扱う機械学習モデルを評価するためのフレームワークを提案する。
本稿では,各サブポピュレーション間でのモデル性能の保存と解析に有用なトポロジカルデータ構造であるプレシーブについて述べる。
論文 参考訳(メタデータ) (2021-07-09T23:11:13Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。