論文の概要: Data-driven Lake Water Quality Forecasting for Time Series with Missing Data using Machine Learning
- arxiv url: http://arxiv.org/abs/2601.15503v1
- Date: Wed, 21 Jan 2026 22:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.431684
- Title: Data-driven Lake Water Quality Forecasting for Time Series with Missing Data using Machine Learning
- Title(参考訳): データ駆動型湖水質予測による機械学習によるデータ不足の時系列予測
- Authors: Rishit Chatterjee, Tahiya Chowdhury,
- Abstract要約: ボランティア主導の湖のモニタリングは、氷の覆い、天候に関連したアクセス制限、時には人為的誤りから生じる多くのギャップを持つ、不規則で季節的な時系列をもたらす。
本研究は,メイン湖全域で収集された30年間のin situ記録から得られた30Lake, data-rich サブセット上でのSecchi Disk Depth (SDD) の予測について検討した。
- 参考スコア(独自算出の注目度): 4.683806391173103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Volunteer-led lake monitoring yields irregular, seasonal time series with many gaps arising from ice cover, weather-related access constraints, and occasional human errors, complicating forecasting and early warning of harmful algal blooms. We study Secchi Disk Depth (SDD) forecasting on a 30-lake, data-rich subset drawn from three decades of in situ records collected across Maine lakes. Missingness is handled via Multiple Imputation by Chained Equations (MICE), and we evaluate performance with a normalized Mean Absolute Error (nMAE) metric for cross-lake comparability. Among six candidates, ridge regression provides the best mean test performance. Using ridge regression, we then quantify the minimal sample size, showing that under a backward, recent-history protocol, the model reaches within 5% of full-history accuracy with approximately 176 training samples per lake on average. We also identify a minimal feature set, where a compact four-feature subset matches the thirteen-feature baseline within the same 5% tolerance. Bringing these results together, we introduce a joint feasibility function that identifies the minimal training history and fewest predictors sufficient to achieve the target of staying within 5% of the complete-history, full-feature baseline. In our study, meeting the 5% accuracy target required about 64 recent samples and just one predictor per lake, highlighting the practicality of targeted monitoring. Hence, our joint feasibility strategy unifies recent-history length and feature choice under a fixed accuracy target, yielding a simple, efficient rule for setting sampling effort and measurement priorities for lake researchers.
- Abstract(参考訳): ボランティア主導の湖沼モニタリングは、氷の覆い、気象に関連したアクセス制限、時には人為的な誤りから生じる多くのギャップを持つ季節的な時系列を発生させ、有害な藻類の開花を予測し、早期に警告する。
本研究は,メイン湖全域で収集された30年間のin situ記録から得られた30Lake, data-rich サブセット上でのSecchi Disk Depth (SDD) の予測について検討した。
MICE(Multiple Imputation by Chained Equations)により欠落度を処理し,正規化平均絶対誤差(nMAE)測定値を用いてクロスレイクの可視性を評価する。
6つの候補のうち、リッジ回帰は最も平均的なテスト性能を提供する。
尾根回帰法を用いて最小サンプルサイズを定量化し, 逆向きの最近のプロトコルでは, モデルが全史的精度の5%以内に到達し, 湖沼平均で約176のトレーニングサンプルが得られた。
また、コンパクトな4機能部分集合が同じ5%の許容範囲内の13機能ベースラインと一致するような、最小限の機能集合も同定する。
本研究は,本研究の成果をまとめて,最少のトレーニング履歴と最小限の予測器を同定し,全史的,フル機能的ベースラインの5%以内にとどまる目標を達成するための統合実現可能性関数を提案する。
本研究では, 5%の精度目標を達成するためには, 約64の試料と1湖1湖1ヶ所の予測器が必要であり, 目標モニタリングの実用性を強調した。
そこで,本研究は,湖沼研究者の採取作業と測定優先順位の設定を簡易かつ効率的に行うため,最近の歴史と特徴の選択を一定の精度で統一する。
関連論文リスト
- Accuracy Law for the Future of Deep Time Series Forecasting [65.46625911002202]
時系列予測は、部分的に観測可能で不確実な性質のため、本質的にゼロでない誤差の低い境界に直面する。
本稿では、ディープ時系列予測の性能上限をどうやって推定するかという根本的な問題に焦点をあてる。
新たに訓練された2,800以上の深層予測器の厳密な統計的テストに基づいて、深部モデルの最小予測誤差とウィンドウワイズ級数パターンの複雑さとの間に有意な指数関数的関係を見出した。
論文 参考訳(メタデータ) (2025-10-03T05:18:47Z) - Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language Models [15.50128790503447]
我々はMin-K%++という名前の事前学習データ検出のための新しい理論的動機付け手法を提案する。
具体的には,各入力次元に沿ったモデル分布の局所的な最大値であることを示す。
論文 参考訳(メタデータ) (2024-04-03T04:25:01Z) - Long-term drought prediction using deep neural networks based on geospatial weather data [75.38539438000072]
農業計画や保険には1年前から予測される高品質の干ばつが不可欠だ。
私たちは、体系的なエンドツーエンドアプローチを採用するエンドツーエンドアプローチを導入することで、干ばつデータに取り組みます。
主な発見は、TransformerモデルであるEarthFormerが、正確な短期(最大6ヶ月)の予測を行う際の例外的なパフォーマンスである。
論文 参考訳(メタデータ) (2023-09-12T13:28:06Z) - Short-term prediction of stream turbidity using surrogate data and a
meta-model approach [0.0]
本研究では,動的回帰(ARIMA),長期記憶ニューラルネット(LSTM),一般化付加モデル(GAM)を構築・比較し,ストリームの濁度を予測する。
我々は,異なる時間点における各モデルの強みを生かし,その長所を生かしたメタモデルを構築した。
以上の結果から,例えば水中照度などの温度および光関連変数は,費用対効果の高い濁度サロゲートとして期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-11T23:05:32Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。