論文の概要: Modern Neural Networks for Small Tabular Datasets: The New Default for Field-Scale Digital Soil Mapping?
- arxiv url: http://arxiv.org/abs/2508.09888v1
- Date: Wed, 13 Aug 2025 15:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.946446
- Title: Modern Neural Networks for Small Tabular Datasets: The New Default for Field-Scale Digital Soil Mapping?
- Title(参考訳): 小口径データセットのための現代のニューラルネットワーク:フィールドスケールデジタル土壌マッピングの新しいデフォルト?
- Authors: Viacheslav Barkov, Jonas Schmidinger, Robin Gebbers, Martin Atzmueller,
- Abstract要約: 我々は、予測土壌モデリングのための最先端の人工知能ニューラルネットワーク(ANN)を評価するベンチマークを導入する。
評価対象は,30~460の試料と3つの土壌特性を含む31の野外・農地規模のデータセットを含む。
フィールドスケールPSMに対する現代のANNの採用を推奨し、すべてのペドメトリアンのツールキットにおける新しいデフォルト選択としてTabPFNを提案する。
- 参考スコア(独自算出の注目度): 0.0937465283958018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of pedometrics, tabular machine learning is the predominant method for predicting soil properties from remote and proximal soil sensing data, forming a central component of digital soil mapping. At the field-scale, this predictive soil modeling (PSM) task is typically constrained by small training sample sizes and high feature-to-sample ratios in soil spectroscopy. Traditionally, these conditions have proven challenging for conventional deep learning methods. Classical machine learning algorithms, particularly tree-based models like Random Forest and linear models such as Partial Least Squares Regression, have long been the default choice for field-scale PSM. Recent advances in artificial neural networks (ANN) for tabular data challenge this view, yet their suitability for field-scale PSM has not been proven. We introduce a comprehensive benchmark that evaluates state-of-the-art ANN architectures, including the latest multilayer perceptron (MLP)-based models (TabM, RealMLP), attention-based transformer variants (FT-Transformer, ExcelFormer, T2G-Former, AMFormer), retrieval-augmented approaches (TabR, ModernNCA), and an in-context learning foundation model (TabPFN). Our evaluation encompasses 31 field- and farm-scale datasets containing 30 to 460 samples and three critical soil properties: soil organic matter or soil organic carbon, pH, and clay content. Our results reveal that modern ANNs consistently outperform classical methods on the majority of tasks, demonstrating that deep learning has matured sufficiently to overcome the long-standing dominance of classical machine learning for PSM. Notably, TabPFN delivers the strongest overall performance, showing robustness across varying conditions. We therefore recommend the adoption of modern ANNs for field-scale PSM and propose TabPFN as the new default choice in the toolkit of every pedometrician.
- Abstract(参考訳): ペドメトリックス分野において、表型機械学習は、リモートおよび近位土壌センシングデータから土壌特性を予測し、デジタル土壌マッピングの中心的な構成要素を形成する主要な方法である。
フィールドスケールでは、この予測土壌モデリング(PSM)タスクは、通常、小さなトレーニングサンプルサイズと土壌分光における高機能対サンプル比によって制約される。
伝統的に、これらの条件は従来のディープラーニング手法では難しいことが証明されている。
古典的な機械学習アルゴリズム、特にランダムフォレストのような木ベースのモデルや、パーシャル・リースト・スクエア・レグレッションのような線形モデルは、長い間、フィールドスケールPSMのデフォルトの選択肢であった。
グラフデータに対する人工知能ニューラルネットワーク(ANN)の最近の進歩はこの見解に異議を唱えているが、フィールドスケールPSMへの適合性は証明されていない。
本稿では,最新の多層パーセプトロン(MLP)ベースモデル(TabM, RealMLP),注目型トランスフォーマー(FT-Transformer, ExcelFormer, T2G-Former, AMFormer),検索拡張アプローチ(TabR, ModernNCA),コンテキスト内学習基盤モデル(TabPFN)など,最先端のANNアーキテクチャを評価する包括的なベンチマークを紹介する。
土壌有機物, 土壌有機炭素, pH, 粘土含有量の3つの重要な土壌特性と30~460個の試料を含む31の畑・農場規模のデータセットについて検討した。
以上の結果から,現代のANNはタスクの大部分において古典的手法を一貫して上回り,PSMにおける古典的機械学習の長年の優位性を克服するために,ディープラーニングが十分に成熟したことを示す。
特にTabPFNは、さまざまな条件にまたがって堅牢性を示す、最も優れた全体的なパフォーマンスを提供する。
したがって、フィールドスケールのPSMに近代的なANNを採用することを推奨し、すべてのペドメトリアンのツールキットにおける新しいデフォルト選択としてTabPFNを提案する。
関連論文リスト
- Benchmarking Foundation Models for Mitotic Figure Classification [0.37334049820361814]
自己教師付き学習技術は、大規模なニューラルネットワークのトレーニングに大量のラベルのないデータを使用することを可能にした。
本研究では,ミオティックフィギュア分類における基礎モデルの利用について検討する。
我々は、すべてのモデルと、CNNとVision Transformerの両方のエンドツーエンドトレーニングベースラインを比較した。
論文 参考訳(メタデータ) (2025-08-06T13:30:40Z) - Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - Revisiting Nearest Neighbor for Tabular Data: A Deep Tabular Baseline Two Decades Later [76.66498833720411]
K$-nearest neighbors (KNN) はもともと,インスタンス間のセマンティックな類似性を捉えるために線形投影を学習するために設計されたものだ。
意外なことに、SGDを用いたNAAの実装と次元減少のない実装は、表データの良好な性能をすでに達成しています。
本稿では、損失関数、予測戦略、深いアーキテクチャなど、これらの改善の背景にある要因を分析して、論文を締めくくる。
論文 参考訳(メタデータ) (2024-07-03T16:38:57Z) - Is Deep Learning finally better than Decision Trees on Tabular Data? [19.657605376506357]
タブラルデータは、多くの現実世界のアプリケーションでその汎用性と使いやすさのために、ユビキタスなデータモダリティである。
データに関する最近の研究は、この領域におけるニューラルネットワークの限界についてユニークな視点を提供する。
本研究は、その基礎となる学習パラダイムに基づいて、10の最先端モデルを分類する。
論文 参考訳(メタデータ) (2024-02-06T12:59:02Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - SSL-SoilNet: A Hybrid Transformer-based Framework with Self-Supervised Learning for Large-scale Soil Organic Carbon Prediction [2.554658234030785]
本研究は,自己指導型コントラスト学習を通じて,マルチモーダル特徴間の地理的関連を学習することを目的とした,新しいアプローチを提案する。
提案手法は、2つの異なる大規模データセットに対して厳密なテストを行っている。
論文 参考訳(メタデータ) (2023-08-07T13:44:44Z) - Contrastive Neighborhood Alignment [81.65103777329874]
本稿では,学習特徴のトポロジを維持するための多様体学習手法であるContrastive Neighborhood Alignment(CNA)を提案する。
対象モデルは、対照的な損失を用いて、ソース表現空間の局所構造を模倣することを目的としている。
CNAは3つのシナリオで説明される: 多様体学習、モデルが元のデータの局所的なトポロジーを次元還元された空間で維持する、モデル蒸留、小さな学生モデルがより大きな教師を模倣するために訓練される、レガシーモデル更新、より強力なモデルに置き換えられる、という3つのシナリオである。
論文 参考訳(メタデータ) (2022-01-06T04:58:31Z) - Surface Warping Incorporating Machine Learning Assisted Domain
Likelihood Estimation: A New Paradigm in Mine Geology Modelling and
Automation [68.8204255655161]
新たに取得した破砕孔データによって課される地球化学的および空間的制約に基づいて, モデル表面を再構成するバイーシアンワープ法が提案されている。
本稿では,このワーピングフレームワークに機械学習を組み込むことにより,可能性の一般化を図る。
その基礎は、p(g|c) が p(y(c)|g と似た役割を果たすような地質領域の確率のベイズ計算によって構成される。
論文 参考訳(メタデータ) (2021-02-15T10:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。