論文の概要: The effect of dataset size and the process of big data mining for investigating solar-thermal desalination by using machine learning
- arxiv url: http://arxiv.org/abs/2307.12594v2
- Date: Wed, 13 Nov 2024 09:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 19:24:47.009213
- Title: The effect of dataset size and the process of big data mining for investigating solar-thermal desalination by using machine learning
- Title(参考訳): 機械学習を用いた太陽熱淡水化調査におけるデータセットサイズとビッグデータマイニングのプロセスの影響
- Authors: Guilong Peng, Senshan Sun, Zhenwei Xu, Juxin Du, Yangjun Qin, Swellam W. Sharshir, A. W. Kandel, A. E. Kabeel, Nuo Yang,
- Abstract要約: 本研究は, 代表的なソーラースチールのための最適化されたデータセット収集と解析プロセスを開発する。
1000以上のデータセットが収集され、これは最新の作業よりも1桁近く大きい。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Machine learning's application in solar-thermal desalination is limited by data shortage and inconsistent analysis. This study develops an optimized dataset collection and analysis process for the representative solar still. By ultra-hydrophilic treatment on the condensation cover, the dataset collection process reduces the collection time by 83.3%. Over 1,000 datasets are collected, which is nearly one order of magnitude larger than up-to-date works. Then, a new interdisciplinary process flow is proposed. Some meaningful results are obtained that were not addressed by previous studies. It is found that Radom Forest might be a better choice for datasets larger than 1,000 due to both high accuracy and fast speed. Besides, the dataset range affects the quantified importance (weighted value) of factors significantly, with up to a 115% increment. Moreover, the results show that machine learning has a high accuracy on the extrapolation prediction of productivity, where the minimum mean relative prediction error is just around 4%. The results of this work not only show the necessity of the dataset characteristics' effect but also provide a standard process for studying solar-thermal desalination by machine learning, which would pave the way for interdisciplinary study.
- Abstract(参考訳): 太陽熱脱塩への機械学習の適用は、データ不足と一貫性のない分析によって制限される。
本研究は, 代表的なソーラースチールのための最適化されたデータセット収集と解析プロセスを開発する。
凝縮カバー上の超親水性処理により、データセット収集プロセスは収集時間を83.3%削減する。
1000以上のデータセットが収集され、これは最新の作業よりも1桁近く大きい。
次に,新たな学際的プロセスフローを提案する。
過去の研究では解決されなかった有意義な結果が得られた。
ラドムフォレストは、高精度と高速の両方のために1000以上のデータセットを選択できる可能性がある。
さらにデータセットの範囲は、最大115%の増分で、因子の定量化重要性(重み付け値)に大きく影響する。
さらに、機械学習は生産性の補間予測に高い精度を示し、最小平均相対予測誤差は約4%である。
この研究の結果は、データセット特性の影響の必要性だけでなく、機械学習による太陽熱脱塩研究の標準的なプロセスも示しており、学際的な研究の道を開くことになる。
関連論文リスト
- Enhancing Multivariate Time Series-based Solar Flare Prediction with Multifaceted Preprocessing and Contrastive Learning [0.9374652839580181]
正確な太陽フレア予測は、宇宙飛行士、宇宙機器、衛星通信システムに強い太陽フレアがもたらす重大なリスクのために重要である。
本研究は、先進的なデータ前処理と分類手法を利用して、太陽フレア予測を強化する。
論文 参考訳(メタデータ) (2024-09-21T05:00:34Z) - Toward data-driven research: preliminary study to predict surface roughness in material extrusion using previously published data with Machine Learning [4.589830030258457]
本研究の目的は, 材料押出時の表面粗さを最適化するための大規模な実験プログラムの使用を避けることである。
提案手法は機械学習モデルを利用して表面粗さを自動的に予測する。
論文 参考訳(メタデータ) (2024-06-20T16:40:55Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Spatiotemporal Transformer for Imputing Sparse Data: A Deep Learning
Approach [19.665820528292798]
本稿では,スパースデータセットの欠落値問題に対処するため,新しいStemporal Transformerモデル(ST-Transformer)を提案する。
このモデルは、自制的なアプローチでトレーニングされており、観察されたデータポイントから欠落した値を自律的に予測することができる。
その効果は、テキサス州の36km×36kmグリッド上のSMAP 1土壌水分データに適用することで実証される。
論文 参考訳(メタデータ) (2023-12-01T22:39:02Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - LiDAR dataset distillation within bayesian active learning framework:
Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。
本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。
我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文 参考訳(メタデータ) (2022-02-06T00:04:21Z) - Short-term forecasting of global solar irradiance with incomplete data [0.0]
本研究は、日射量と日射量の1日前予測のためのパイプラインを導入する。
自動回帰統合型移動平均(ARIMA)、単層フィードフォワードネットワーク(SL-FNN)、複数層フィードフォワードネットワーク(FL-FNN)、長短期メモリ(LSTM)の4つの手法を検討する。
実験は、成野-コロンビアにある12の自動気象観測所(AWS)で収集された実世界のデータセットで実施される。
論文 参考訳(メタデータ) (2021-06-12T21:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。