論文の概要: Data-Centric Machine Learning for Geospatial Remote Sensing Data
- arxiv url: http://arxiv.org/abs/2312.05327v1
- Date: Fri, 8 Dec 2023 19:24:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:32:38.494293
- Title: Data-Centric Machine Learning for Geospatial Remote Sensing Data
- Title(参考訳): 地理空間リモートセンシングデータのためのデータ中心機械学習
- Authors: Ribana Roscher and Marc Ru{\ss}wurm and Caroline Gevaert and Michael
Kampffmeyer and Jefersson A. dos Santos and Maria Vakalopoulou and Ronny
H\"ansch and Stine Hansen and Keiller Nogueira and Jonathan Prexl and Devis
Tuia
- Abstract要約: 本研究では地理空間データに対する自動データ中心学習手法の定義と正確な分類について述べる。
我々は、補完的なデータ中心の視点に焦点を移すことが、エンドユーザーアプリケーションにおける精度、一般化能力、および真の影響のさらなる改善を達成するために必要であると主張している。
- 参考スコア(独自算出の注目度): 14.875006009324721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent developments and research in modern machine learning have led to
substantial improvements in the geospatial field. Although numerous deep
learning models have been proposed, the majority of them have been developed on
benchmark datasets that lack strong real-world relevance. Furthermore, the
performance of many methods has already saturated on these datasets. We argue
that shifting the focus towards a complementary data-centric perspective is
necessary to achieve further improvements in accuracy, generalization ability,
and real impact in end-user applications. This work presents a definition and
precise categorization of automated data-centric learning approaches for
geospatial data. It highlights the complementary role of data-centric learning
with respect to model-centric in the larger machine learning deployment cycle.
We review papers across the entire geospatial field and categorize them into
different groups. A set of representative experiments shows concrete
implementation examples. These examples provide concrete steps to act on
geospatial data with data-centric machine learning approaches.
- Abstract(参考訳): 最近の機械学習の発展と研究は、地理空間分野の大幅な改善をもたらした。
多くのディープラーニングモデルが提案されているが、その大半は、現実世界の強い妥当性に欠けるベンチマークデータセット上で開発されている。
さらに、これらのデータセットでは、多くのメソッドのパフォーマンスがすでに飽和している。
データ中心の観点に焦点を移すことは、エンドユーザアプリケーションにおける精度、一般化能力、実際の影響のさらなる改善を達成するために必要である。
本研究では,地理空間データの自動学習手法の定義と正確な分類を行う。
これは、より大きな機械学習デプロイメントサイクルにおけるモデル中心の学習に対するデータ中心学習の補完的な役割を強調している。
我々は,地理空間領域全体の論文をレビューし,それらを異なるグループに分類する。
代表的な実験のセットは具体的な実装例を示している。
これらの例は、データ中心の機械学習アプローチで地理空間データに作用する具体的なステップを提供する。
関連論文リスト
- Data-Centric Machine Learning for Earth Observation: Necessary and Sufficient Features [5.143097874851516]
モデル記述法を利用して、モデルが最適な性能に達するために必要な特徴を特定する。
一部のデータセットは、時間的なインスタンスの20%未満で最適な精度に達することができるが、他のデータセットでは、1つのモダリティから1つのバンドの時系列が十分である。
論文 参考訳(メタデータ) (2024-08-21T07:26:43Z) - A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data [9.57464542357693]
実世界のモデリングパイプラインは、しばしばデータセット固有の前処理と特徴工学を必要とするため、モデル中心の評価は偏りがあることを実証する。
Kaggleコンペティションから10の関連するデータセットを選択し、データセット毎に専門家レベルの前処理パイプラインを実装します。
データセット固有の機能エンジニアリングの後、モデルランキングは大幅に変化し、性能差が減少し、モデル選択の重要性が低下する。
論文 参考訳(メタデータ) (2024-07-02T09:54:39Z) - Dataset Regeneration for Sequential Recommendation [69.93516846106701]
DR4SRと呼ばれるモデルに依存しないデータセット再生フレームワークを用いて、理想的なトレーニングデータセットを開発するためのデータ中心のパラダイムを提案する。
データ中心のパラダイムの有効性を示すために、我々はフレームワークを様々なモデル中心の手法と統合し、4つの広く採用されているデータセット間で大きなパフォーマンス改善を観察する。
論文 参考訳(メタデータ) (2024-05-28T03:45:34Z) - TSPP: A Unified Benchmarking Tool for Time-series Forecasting [3.5415344166235534]
本稿では,時系列予測モデルの開発に係わる重要なモデリングと機械学習の決定を明らかにする,統一的なベンチマークフレームワークを提案する。
このフレームワークは、モデルとデータセットのシームレスな統合を促進し、実践者と研究者の両方が開発作業を支援する。
このフレームワーク内で最近提案されたモデルをベンチマークし、最小限の努力で注意深く実装されたディープラーニングモデルは、勾配決定木に匹敵する可能性があることを実証した。
論文 参考訳(メタデータ) (2023-12-28T16:23:58Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Robust Computer Vision in an Ever-Changing World: A Survey of Techniques
for Tackling Distribution Shifts [20.17397328893533]
AIアプリケーションは、ますます一般大衆に注目を集めている。
コンピュータビジョンモデルに関する理論的な仮定と、それらのモデルが現実世界に展開する際に直面する現実との間には、顕著なギャップがある。
このギャップの重要な理由の1つは、分散シフトとして知られる難しい問題である。
論文 参考訳(メタデータ) (2023-12-03T23:40:12Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - A Topological-Framework to Improve Analysis of Machine Learning Model
Performance [5.3893373617126565]
本稿では、データセットをモデルが動作する「空間」として扱う機械学習モデルを評価するためのフレームワークを提案する。
本稿では,各サブポピュレーション間でのモデル性能の保存と解析に有用なトポロジカルデータ構造であるプレシーブについて述べる。
論文 参考訳(メタデータ) (2021-07-09T23:11:13Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。