論文の概要: LimeSoDa: A Dataset Collection for Benchmarking of Machine Learning Regressors in Digital Soil Mapping
- arxiv url: http://arxiv.org/abs/2502.20139v1
- Date: Thu, 27 Feb 2025 14:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:56:33.254102
- Title: LimeSoDa: A Dataset Collection for Benchmarking of Machine Learning Regressors in Digital Soil Mapping
- Title(参考訳): LimeSoDa: デジタル土壌マッピングにおける機械学習レシーバのベンチマークのためのデータセットコレクション
- Authors: J. Schmidinger, S. Vogel, V. Barkov, A. -D. Pham, R. Gebbers, H. Tavakoli, J. Correa, T. R. Tavares, P. Filippi, E. J. Jones, V. Lukas, E. Boenecke, J. Ruehlmann, I. Schroeter, E. Kramer, S. Paetzold, M. Kodaira, A. M. J. -C. Wadoux, L. Bragazza, K. Metzger, J. Huang, D. S. M. Valente, J. L. Safanelli, E. L. Bottega, R. S. D. Dalmolin, C. Farkas, A. Steiger, T. Z. Horst, L. Ramirez-Lopez, T. Scholten, F. Stumpf, P. Rosso, M. M. Costa, R. S. Zandonadi, J. Wetterlind, M. Atzmueller,
- Abstract要約: 複数のデータセットに関するベンチマーク研究は、一般的に使われている手法の長所と短所を明らかにするために必要である。
LimeSoDaは、さまざまな国の31のフィールドとファームスケールのデータセットで構成されている。
我々は、すべてのデータセットで4つの学習アルゴリズムの予測性能を比較することで、ベンチマークにLimeSoDaを使うことを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Digital soil mapping (DSM) relies on a broad pool of statistical methods, yet determining the optimal method for a given context remains challenging and contentious. Benchmarking studies on multiple datasets are needed to reveal strengths and limitations of commonly used methods. Existing DSM studies usually rely on a single dataset with restricted access, leading to incomplete and potentially misleading conclusions. To address these issues, we introduce an open-access dataset collection called Precision Liming Soil Datasets (LimeSoDa). LimeSoDa consists of 31 field- and farm-scale datasets from various countries. Each dataset has three target soil properties: (1) soil organic matter or soil organic carbon, (2) clay content and (3) pH, alongside a set of features. Features are dataset-specific and were obtained by optical spectroscopy, proximal- and remote soil sensing. All datasets were aligned to a tabular format and are ready-to-use for modeling. We demonstrated the use of LimeSoDa for benchmarking by comparing the predictive performance of four learning algorithms across all datasets. This comparison included multiple linear regression (MLR), support vector regression (SVR), categorical boosting (CatBoost) and random forest (RF). The results showed that although no single algorithm was universally superior, certain algorithms performed better in specific contexts. MLR and SVR performed better on high-dimensional spectral datasets, likely due to better compatibility with principal components. In contrast, CatBoost and RF exhibited considerably better performances when applied to datasets with a moderate number (< 20) of features. These benchmarking results illustrate that the performance of a method is highly context-dependent. LimeSoDa therefore provides an important resource for improving the development and evaluation of statistical methods in DSM.
- Abstract(参考訳): デジタル土壌マッピング(DSM)は、統計手法の幅広いプールに依存しているが、与えられた状況に対して最適な方法を決定することは困難であり、論争的である。
複数のデータセットに関するベンチマーク研究は、一般的に使われている手法の長所と短所を明らかにするために必要である。
既存のDSM研究は通常、アクセスが制限された単一のデータセットに依存しており、不完全で誤解を招く可能性がある。
これらの問題に対処するため,我々はPrecision Liming Soil Datasets (LimeSoDa) と呼ばれるオープンアクセスデータセットコレクションを導入する。
LimeSoDaは、さまざまな国の31のフィールドとファームスケールのデータセットで構成されている。
各データセットは,(1)土壌有機物,(2)土壌有機物,(2)粘土含量,(3)pHの3つの特性を持つ。
特徴はデータセット固有であり、光学分光法、近位およびリモート土壌センシングによって得られた。
すべてのデータセットは表形式で整列されており、モデリングに使える。
我々は、すべてのデータセットで4つの学習アルゴリズムの予測性能を比較することで、ベンチマークにLimeSoDaを使うことを実証した。
この比較には、多重線形回帰(MLR)、サポートベクター回帰(SVR)、カテゴリーブースト(CatBoost)、ランダムフォレスト(RF)が含まれる。
その結果、単一のアルゴリズムが普遍的に優れているわけではないが、特定の文脈において、特定のアルゴリズムはより良い性能を示した。
MLRとSVRは、主成分との互換性が良くなったため、高次元のスペクトルデータセットでより良い性能を示した。
対照的に、CatBoostとRFは、適度な数(<20)の特徴を持つデータセットに適用した場合、かなり優れたパフォーマンスを示した。
これらのベンチマーク結果は、メソッドのパフォーマンスがコンテキストに依存していることを示している。
そのため、LimeSoDaは、DSMにおける統計手法の開発と評価を改善するための重要なリソースを提供する。
関連論文リスト
- Adaptive Dataset Quantization [2.0105434963031463]
適応データセット量子化(ADQ)という,データセット圧縮のための汎用フレームワークを導入する。
本稿では,生成したビンの代表性スコア,多様性スコア,重要度スコアの評価を通じて,新しい適応型サンプリング戦略を提案する。
提案手法は, 異なるアーキテクチャにまたがる優れた一般化能力を示すだけでなく, 各種データセットにおいてDQを平均3%越えて, 最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-12-22T07:08:29Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning [56.795078085234195]
LLMプルーニングのアプローチは、プルーニングスコアを計算するためのキャリブレーションデータとして、C4データセットに依存している。
本研究では, LLMプルーニングにおけるキャリブレーションデータの選択を, 幅広いデータセットで評価する。
私たちの結果は、微妙でしばしば予期せぬ発見もいくつか見つけました。
論文 参考訳(メタデータ) (2024-10-09T22:00:19Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - DAMEX: Dataset-aware Mixture-of-Experts for visual understanding of
mixture-of-datasets [34.780870585656395]
本稿では,データセット・アウェア・ミックス・オブ・エクササイズ,DAMEXを提案する。
データセットトークンをマップされた専門家にルーティングすることを学ぶことで、データセットのエキスパートになるように専門家を訓練します。
Universal Object-Detection Benchmarkの実験では、既存の最先端技術よりも優れています。
論文 参考訳(メタデータ) (2023-11-08T18:55:24Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - SSL-SoilNet: A Hybrid Transformer-based Framework with Self-Supervised Learning for Large-scale Soil Organic Carbon Prediction [2.554658234030785]
本研究は,自己指導型コントラスト学習を通じて,マルチモーダル特徴間の地理的関連を学習することを目的とした,新しいアプローチを提案する。
提案手法は、2つの異なる大規模データセットに対して厳密なテストを行っている。
論文 参考訳(メタデータ) (2023-08-07T13:44:44Z) - Multimodal Remote Sensing Benchmark Datasets for Land Cover
Classification with A Shared and Specific Feature Learning Model [36.993630058695345]
マルチモーダルRSデータをモダリティ共有およびモダリティ固有成分に分解するための共有特徴学習(S2FL)モデルを提案する。
マルチモーダルベースラインと新たに提案されたS2FLモデルを評価するために、3つのマルチモーダルRSベンチマークデータセット、すなわちHouston2013 -- hyperspectral and multispectral data, Berlin -- hyperspectral and synthetic Aperture radar (SAR) data, Augsburg -- hyperspectral, SAR, digital surface model (DSM) dataがリリースされ、土地被覆分類に使用される。
論文 参考訳(メタデータ) (2021-05-21T08:14:21Z) - Shared Space Transfer Learning for analyzing multi-site fMRI data [83.41324371491774]
マルチボクセルパターン解析(MVPA)は、タスクベース機能磁気共鳴画像(fMRI)データから予測モデルを学習する。
MVPAはよく設計された機能セットと十分なサンプルサイズで機能する。
ほとんどのfMRIデータセットはノイズが多く、高次元で、収集するのに高価で、サンプルサイズも小さい。
本稿では,新しい伝達学習手法として共有空間移動学習(SSTL)を提案する。
論文 参考訳(メタデータ) (2020-10-24T08:50:26Z) - Feature Ranking for Semi-supervised Learning [3.1380888953704984]
特徴ランクの半教師付き学習を提案する。
我々の知る限りでは、半教師付き構造的出力予測コンテキストにおける特徴ランク付けのタスクを取り扱うのはこれが初めてである。
ランダムフォレストは分類のようなタスクでベスト、回帰のようなタスクではエクストラPCTがベストです。
論文 参考訳(メタデータ) (2020-08-10T07:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。