論文の概要: The effect of dataset size and the process of big data mining for investigating solar-thermal desalination by using machine learning
- arxiv url: http://arxiv.org/abs/2307.12594v2
- Date: Wed, 13 Nov 2024 09:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 19:24:47.009213
- Title: The effect of dataset size and the process of big data mining for investigating solar-thermal desalination by using machine learning
- Title(参考訳): 機械学習を用いた太陽熱淡水化調査におけるデータセットサイズとビッグデータマイニングのプロセスの影響
- Authors: Guilong Peng, Senshan Sun, Zhenwei Xu, Juxin Du, Yangjun Qin, Swellam W. Sharshir, A. W. Kandel, A. E. Kabeel, Nuo Yang,
- Abstract要約: 本研究は, 代表的なソーラースチールのための最適化されたデータセット収集と解析プロセスを開発する。
1000以上のデータセットが収集され、これは最新の作業よりも1桁近く大きい。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Machine learning's application in solar-thermal desalination is limited by data shortage and inconsistent analysis. This study develops an optimized dataset collection and analysis process for the representative solar still. By ultra-hydrophilic treatment on the condensation cover, the dataset collection process reduces the collection time by 83.3%. Over 1,000 datasets are collected, which is nearly one order of magnitude larger than up-to-date works. Then, a new interdisciplinary process flow is proposed. Some meaningful results are obtained that were not addressed by previous studies. It is found that Radom Forest might be a better choice for datasets larger than 1,000 due to both high accuracy and fast speed. Besides, the dataset range affects the quantified importance (weighted value) of factors significantly, with up to a 115% increment. Moreover, the results show that machine learning has a high accuracy on the extrapolation prediction of productivity, where the minimum mean relative prediction error is just around 4%. The results of this work not only show the necessity of the dataset characteristics' effect but also provide a standard process for studying solar-thermal desalination by machine learning, which would pave the way for interdisciplinary study.
- Abstract(参考訳): 太陽熱脱塩への機械学習の適用は、データ不足と一貫性のない分析によって制限される。
本研究は, 代表的なソーラースチールのための最適化されたデータセット収集と解析プロセスを開発する。
凝縮カバー上の超親水性処理により、データセット収集プロセスは収集時間を83.3%削減する。
1000以上のデータセットが収集され、これは最新の作業よりも1桁近く大きい。
次に,新たな学際的プロセスフローを提案する。
過去の研究では解決されなかった有意義な結果が得られた。
ラドムフォレストは、高精度と高速の両方のために1000以上のデータセットを選択できる可能性がある。
さらにデータセットの範囲は、最大115%の増分で、因子の定量化重要性(重み付け値)に大きく影響する。
さらに、機械学習は生産性の補間予測に高い精度を示し、最小平均相対予測誤差は約4%である。
この研究の結果は、データセット特性の影響の必要性だけでなく、機械学習による太陽熱脱塩研究の標準的なプロセスも示しており、学際的な研究の道を開くことになる。
関連論文リスト
- An Investigation on Machine Learning Predictive Accuracy Improvement and Uncertainty Reduction using VAE-based Data Augmentation [2.517043342442487]
深層生成学習は、特定のMLモデルを使用して、既存のデータの基盤となる分布を学習し、実際のデータに似た合成サンプルを生成する。
本研究では,変分オートエンコーダ(VAE)を用いた深部生成モデルを用いて,データ拡張の有効性を評価することを目的とする。
本研究では,拡張データを用いてトレーニングしたディープニューラルネットワーク(DNN)モデルの予測において,データ拡張が精度の向上につながるかどうかを検討した。
論文 参考訳(メタデータ) (2024-10-24T18:15:48Z) - Enhancing High-Energy Particle Physics Collision Analysis through Graph Data Attribution Techniques [0.0]
本稿では、シミュレーション粒子衝突データセットを用いて、グラフ分類パイプライン内の影響分析を統合する。
グラフニューラルネットワークを初等訓練に用いることにより,学習サンプルの同定に勾配に基づくデータ影響法を適用した。
破棄された要素を分析することで、イベント分類タスクに関するさらなる洞察を得ることができる。
論文 参考訳(メタデータ) (2024-07-20T12:40:03Z) - Improvement of Applicability in Student Performance Prediction Based on Transfer Learning [2.3290007848431955]
本研究では,様々な分布を持つデータセットの転送学習手法を用いて,予測精度を向上させる手法を提案する。
モデルは、その一般化能力と予測精度を高めるために訓練され、評価された。
実験により, この手法は根平均角誤差 (RMSE) と平均絶対誤差 (MAE) の低減に優れていることが示された。
結果は、より多くのレイヤを凍結することで、複雑でノイズの多いデータのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2024-06-01T13:09:05Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Enhancing Petrophysical Studies with Machine Learning: A Field Case
Study on Permeability Prediction in Heterogeneous Reservoirs [0.0]
この研究では、ニューラルネットワーク(ANN)、ランダムフォレスト(RFC)、サポートベクトルマシン(SVM)の3つの機械学習アルゴリズムが採用された。
本研究の主な目的は,透過性予測における3つの機械学習アルゴリズムの有効性を比較し,最適予測法を決定することである。
この発見は貯水池のシミュレーションを改善し、より正確に将来の井戸を見つけるために使われる。
論文 参考訳(メタデータ) (2023-05-11T21:23:37Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。