論文の概要: UniCrop: A Universal, Multi-Source Data Engineering Pipeline for Scalable Crop Yield Prediction
- arxiv url: http://arxiv.org/abs/2601.01655v1
- Date: Sun, 04 Jan 2026 20:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.623925
- Title: UniCrop: A Universal, Multi-Source Data Engineering Pipeline for Scalable Crop Yield Prediction
- Title(参考訳): UniCrop: スケーラブルなクロップ収量予測のための汎用マルチソースデータエンジニアリングパイプライン
- Authors: Emiliya Khidirova, Oktay Karakuş,
- Abstract要約: 本研究は, 収量予測のためのマルチソース環境データの取得, クリーニング, 調和, エンジニアリングの自動化を目的とした, 汎用的で再利用可能なデータパイプラインであるUniCropを紹介する。
UniCropは200以上の環境変数(Sentinel-1/2、MODIS、ERA5-Land、NASA POWER、SoilGrids、SRTM)を自動的に取得し、調和させる
ウニクロップは557個の野の観測結果からなる収量データセットに適用された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate crop yield prediction relies on diverse data streams, including satellite, meteorological, soil, and topographic information. However, despite rapid advances in machine learning, existing approaches remain crop- or region-specific and require data engineering efforts. This limits scalability, reproducibility, and operational deployment. This study introduces UniCrop, a universal and reusable data pipeline designed to automate the acquisition, cleaning, harmonisation, and engineering of multi-source environmental data for crop yield prediction. For any given location, crop type, and temporal window, UniCrop automatically retrieves, harmonises, and engineers over 200 environmental variables (Sentinel-1/2, MODIS, ERA5-Land, NASA POWER, SoilGrids, and SRTM), reducing them to a compact, analysis-ready feature set utilising a structured feature reduction workflow with minimum redundancy maximum relevance (mRMR). To validate, UniCrop was applied to a rice yield dataset comprising 557 field observations. Using only the selected 15 features, four baseline machine learning models (LightGBM, Random Forest, Support Vector Regression, and Elastic Net) were trained. LightGBM achieved the best single-model performance (RMSE = 465.1 kg/ha, $R^2 = 0.6576$), while a constrained ensemble of all baselines further improved accuracy (RMSE = 463.2 kg/ha, $R^2 = 0.6604$). UniCrop contributes a scalable and transparent data-engineering framework that addresses the primary bottleneck in operational crop yield modelling: the preparation of consistent and harmonised multi-source data. By decoupling data specification from implementation and supporting any crop, region, and time frame through simple configuration updates, UniCrop provides a practical foundation for scalable agricultural analytics. The code and implementation documentation are shared in https://github.com/CoDIS-Lab/UniCrop.
- Abstract(参考訳): 正確な収穫予測は、衛星、気象、土壌、地形情報を含む多様なデータストリームに依存している。
しかし、機械学習の急速な進歩にもかかわらず、既存のアプローチは、作物や地域固有のものであり、データエンジニアリングの努力を必要とする。
これによりスケーラビリティ、再現性、運用デプロイメントが制限される。
本研究は, 収量予測のためのマルチソース環境データの取得, クリーニング, 調和, エンジニアリングの自動化を目的とした, 汎用的で再利用可能なデータパイプラインであるUniCropを紹介する。
任意の場所、作物の種類、時間的ウィンドウに対して、UniCropは200以上の環境変数(Sentinel-1/2、MODIS、ERA5-Land、NASA POWER、SoilGrids、SRTM)を自動で取得し、調和させ、最小冗長性を持つ構造化された機能縮小ワークフロー(mRMR)を活用する。
ウニクロップは557個の野の観測結果からなる収量データセットに適用された。
選択された15機能のみを使用して、4つのベースライン機械学習モデル(LightGBM、ランダムフォレスト、サポートベクトル回帰、Elastic Net)がトレーニングされた。
LightGBMは最高のシングルモデル性能(RMSE = 465.1 kg/ha, $R^2 = 0.6576$)を達成し、全てのベースラインの制約付きアンサンブルは精度をさらに向上させた(RMSE = 463.2 kg/ha, $R^2 = 0.6604$)。
UniCropはスケーラブルで透明なデータエンジニアリングフレームワークを提供しており、運用的収量モデリングにおける主要なボトルネックに対処している。
データ仕様を実装から切り離して、単純な構成更新を通じて、任意の作物、リージョン、タイムフレームをサポートすることで、UniCropは、スケーラブルな農業分析の実践的な基盤を提供する。
コードと実装のドキュメントはhttps://github.com/CoDIS-Lab/UniCrop.comで共有されている。
関連論文リスト
- RLFactory: A Plug-and-Play Reinforcement Learning Post-Training Framework for LLM Multi-Turn Tool-Use [50.52940111891476]
大きな言語モデルは基本的な推論では優れているが、外部ツールとのインタラクションを必要とするタスクには苦労する。
マルチラウンドツール用プラグイン・アンド・プレイ強化学習フレームワークであるRLFactoryを提案する。
論文 参考訳(メタデータ) (2025-08-31T16:47:31Z) - Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。
既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。
SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-24T03:53:36Z) - Procedural Environment Generation for Tool-Use Agents [55.10427063893754]
我々はRandomWorldを紹介した。これは対話型ツールと合成ツール利用データの手続き的生成のためのパイプラインである。
我々は,SFTとRLによるRandomWorldの合成データによるモデル調整により,様々なツール使用ベンチマークが改良されたことを示す。
論文 参考訳(メタデータ) (2025-05-21T14:10:06Z) - CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - Multi-modal Data Fusion and Deep Ensemble Learning for Accurate Crop Yield Prediction [0.0]
本研究では、収穫量を予測するために設計された新しいDeep EnsembleモデルであるRicEns-Netを紹介する。
この研究は、合成開口レーダ(SAR)の使用、センチネル1, 2, 3衛星からの光リモートセンシングデータ、表面温度や降雨などの気象測定に焦点を当てている。
主な目的は、複雑な環境データを扱うことができる機械学習フレームワークを開発することにより、収量予測の精度を高めることである。
論文 参考訳(メタデータ) (2025-02-09T22:48:27Z) - Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。
既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。
本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文 参考訳(メタデータ) (2024-11-24T04:56:45Z) - Adaptive Fusion of Multi-view Remote Sensing data for Optimal Sub-field
Crop Yield Prediction [24.995959334158986]
本研究では,異なる作物(スギ,コムギ,ラプシード)と地域(アルジャンティナ,ウルグアイ,ドイツ)の収量を予測するための,新しい多視点学習手法を提案する。
我々の入力データには、センチネル2衛星からのマルチスペクトル光学画像と、土壌特性や地形情報などの静的特徴を補完して、作物の生育期における動的特徴として気象データが含まれている。
データを効果的に融合するために、専用ビューエンコーダとGated Unit (GU)モジュールからなるMulti-view Gated Fusion (MVGF)モデルを導入する。
MVGFモデルは10m分解能でサブフィールドレベルで訓練される
論文 参考訳(メタデータ) (2024-01-22T11:01:52Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Foundation Models for Generalist Geospatial Artificial Intelligence [3.7002058945990415]
本稿では,大規模データに基づく基礎モデルの事前学習と微調整を効果的に行うための第1種フレームワークを提案する。
我々はこの枠組みを利用して、マルチスペクトル衛星画像の1TB以上を事前トレーニングしたトランスフォーマーベースの基礎モデルであるPrithviを開発した。
論文 参考訳(メタデータ) (2023-10-28T10:19:55Z) - Deep-Learning Framework for Optimal Selection of Soil Sampling Sites [0.0]
この研究は、画像処理におけるディープラーニングの最近の進歩を活用して、フィールドの重要な特性を示す最適な位置を見つける。
本フレームワークは,自己保持機構をバックボーンとするエンコーダデコーダアーキテクチャで構築されている。
このモデルはテストデータセットにおいて、平均精度99.52%、IoU平均インターセクション57.35%、Dice Coefficient平均71.47%という驚くべき結果を得た。
論文 参考訳(メタデータ) (2023-09-02T16:19:21Z) - Satellite Image Time Series Analysis for Big Earth Observation Data [50.591267188664666]
本稿では,機械学習を用いた衛星画像時系列解析のためのオープンソースRパッケージである sit について述べる。
本手法は, Cerrado Biome のケーススタディにより, 土地利用と土地被覆マップの精度が高いことを示す。
論文 参考訳(メタデータ) (2022-04-24T15:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。