論文の概要: Data-driven Lake Water Quality Forecasting for Time Series with Missing Data using Machine Learning
- arxiv url: http://arxiv.org/abs/2601.15503v1
- Date: Wed, 21 Jan 2026 22:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.431684
- Title: Data-driven Lake Water Quality Forecasting for Time Series with Missing Data using Machine Learning
- Title(参考訳): データ駆動型湖水質予測による機械学習によるデータ不足の時系列予測
- Authors: Rishit Chatterjee, Tahiya Chowdhury,
- Abstract要約: ボランティア主導の湖のモニタリングは、氷の覆い、天候に関連したアクセス制限、時には人為的誤りから生じる多くのギャップを持つ、不規則で季節的な時系列をもたらす。
本研究は,メイン湖全域で収集された30年間のin situ記録から得られた30Lake, data-rich サブセット上でのSecchi Disk Depth (SDD) の予測について検討した。
- 参考スコア(独自算出の注目度): 4.683806391173103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Volunteer-led lake monitoring yields irregular, seasonal time series with many gaps arising from ice cover, weather-related access constraints, and occasional human errors, complicating forecasting and early warning of harmful algal blooms. We study Secchi Disk Depth (SDD) forecasting on a 30-lake, data-rich subset drawn from three decades of in situ records collected across Maine lakes. Missingness is handled via Multiple Imputation by Chained Equations (MICE), and we evaluate performance with a normalized Mean Absolute Error (nMAE) metric for cross-lake comparability. Among six candidates, ridge regression provides the best mean test performance. Using ridge regression, we then quantify the minimal sample size, showing that under a backward, recent-history protocol, the model reaches within 5% of full-history accuracy with approximately 176 training samples per lake on average. We also identify a minimal feature set, where a compact four-feature subset matches the thirteen-feature baseline within the same 5% tolerance. Bringing these results together, we introduce a joint feasibility function that identifies the minimal training history and fewest predictors sufficient to achieve the target of staying within 5% of the complete-history, full-feature baseline. In our study, meeting the 5% accuracy target required about 64 recent samples and just one predictor per lake, highlighting the practicality of targeted monitoring. Hence, our joint feasibility strategy unifies recent-history length and feature choice under a fixed accuracy target, yielding a simple, efficient rule for setting sampling effort and measurement priorities for lake researchers.
- Abstract(参考訳): ボランティア主導の湖沼モニタリングは、氷の覆い、気象に関連したアクセス制限、時には人為的な誤りから生じる多くのギャップを持つ季節的な時系列を発生させ、有害な藻類の開花を予測し、早期に警告する。
本研究は,メイン湖全域で収集された30年間のin situ記録から得られた30Lake, data-rich サブセット上でのSecchi Disk Depth (SDD) の予測について検討した。
MICE(Multiple Imputation by Chained Equations)により欠落度を処理し,正規化平均絶対誤差(nMAE)測定値を用いてクロスレイクの可視性を評価する。
6つの候補のうち、リッジ回帰は最も平均的なテスト性能を提供する。
尾根回帰法を用いて最小サンプルサイズを定量化し, 逆向きの最近のプロトコルでは, モデルが全史的精度の5%以内に到達し, 湖沼平均で約176のトレーニングサンプルが得られた。
また、コンパクトな4機能部分集合が同じ5%の許容範囲内の13機能ベースラインと一致するような、最小限の機能集合も同定する。
本研究は,本研究の成果をまとめて,最少のトレーニング履歴と最小限の予測器を同定し,全史的,フル機能的ベースラインの5%以内にとどまる目標を達成するための統合実現可能性関数を提案する。
本研究では, 5%の精度目標を達成するためには, 約64の試料と1湖1湖1ヶ所の予測器が必要であり, 目標モニタリングの実用性を強調した。
そこで,本研究は,湖沼研究者の採取作業と測定優先順位の設定を簡易かつ効率的に行うため,最近の歴史と特徴の選択を一定の精度で統一する。
関連論文リスト
- Echo State Networks for Time Series Forecasting: Hyperparameter Sweep and Benchmarking [51.56484100374058]
我々は、完全に自動で純粋にフィードバック駆動のESNが、広く使われている統計的予測手法の代替となるかどうかを評価する。
予測精度は、MASEとsMAPEを用いて測定され、ドリフトや季節予測、統計モデルといった単純なベンチマークと比較される。
論文 参考訳(メタデータ) (2026-02-03T16:01:22Z) - Accuracy Law for the Future of Deep Time Series Forecasting [65.46625911002202]
時系列予測は、部分的に観測可能で不確実な性質のため、本質的にゼロでない誤差の低い境界に直面する。
本稿では、ディープ時系列予測の性能上限をどうやって推定するかという根本的な問題に焦点をあてる。
新たに訓練された2,800以上の深層予測器の厳密な統計的テストに基づいて、深部モデルの最小予測誤差とウィンドウワイズ級数パターンの複雑さとの間に有意な指数関数的関係を見出した。
論文 参考訳(メタデータ) (2025-10-03T05:18:47Z) - Density-Aware Farthest Point Sampling [2.9434930072968584]
本稿では,新しいサンプリング手法であるDA-FPS(Density-Aware Farthest Point Smpling)を紹介する。
DA-FPSは重み付き充填距離をデータ駆動で推定するための近似最小値を提供する。
その結果, DA-FPSは, 他のサンプリング手法と比較して平均絶対誤差を著しく低減することがわかった。
論文 参考訳(メタデータ) (2025-09-16T16:19:14Z) - Lag Selection for Univariate Time Series Forecasting using Deep Learning: An Empirical Study [0.393259574660092]
我々は、グローバルアプローチで訓練されたディープラーニング手法、すなわち、複数の単変量時系列からなるデータセットに焦点を当てる。
その結果,ラグサイズは正確な予測のパラメータであることがわかった。
クロスバリデーションアプローチは、ラグ選択に最適なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-18T09:31:54Z) - Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language Models [15.50128790503447]
我々はMin-K%++という名前の事前学習データ検出のための新しい理論的動機付け手法を提案する。
具体的には,各入力次元に沿ったモデル分布の局所的な最大値であることを示す。
論文 参考訳(メタデータ) (2024-04-03T04:25:01Z) - Long-term drought prediction using deep neural networks based on geospatial weather data [75.38539438000072]
農業計画や保険には1年前から予測される高品質の干ばつが不可欠だ。
私たちは、体系的なエンドツーエンドアプローチを採用するエンドツーエンドアプローチを導入することで、干ばつデータに取り組みます。
主な発見は、TransformerモデルであるEarthFormerが、正確な短期(最大6ヶ月)の予測を行う際の例外的なパフォーマンスである。
論文 参考訳(メタデータ) (2023-09-12T13:28:06Z) - On minimizing the training set fill distance in machine learning regression [0.552480439325792]
本研究では,選択した集合の充填距離を最小化することを目的としたデータ選択手法を提案する。
FPSを用いてトレーニングセットを選択することで、ガウスカーネル回帰アプローチの特定の場合のモデルの安定性を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-07-20T16:18:33Z) - Short-term prediction of stream turbidity using surrogate data and a
meta-model approach [0.0]
本研究では,動的回帰(ARIMA),長期記憶ニューラルネット(LSTM),一般化付加モデル(GAM)を構築・比較し,ストリームの濁度を予測する。
我々は,異なる時間点における各モデルの強みを生かし,その長所を生かしたメタモデルを構築した。
以上の結果から,例えば水中照度などの温度および光関連変数は,費用対効果の高い濁度サロゲートとして期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-11T23:05:32Z) - Curse of Small Sample Size in Forecasting of the Active Cases in
COVID-19 Outbreak [0.0]
新型コロナウイルス(COVID-19)のパンデミックでは、感染者数や今後の流行を予想する試みが多数行われている。
しかし、信頼性の高い方法では、新型コロナウイルス(COVID-19)の根本的特徴の中期的・長期的進化を許容できる精度で予測することができない。
本稿では,この予測問題における機械学習モデルの故障について説明する。
論文 参考訳(メタデータ) (2020-11-06T23:13:34Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Learning a Unified Sample Weighting Network for Object Detection [113.98404690619982]
地域サンプリングや重み付けは、現代の地域ベースの物体検出器の成功に極めて重要である。
サンプル重み付けはデータ依存でタスク依存であるべきだと我々は主張する。
サンプルのタスク重みを予測するための統一的なサンプル重み付けネットワークを提案する。
論文 参考訳(メタデータ) (2020-06-11T16:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。