Fugu-MT 論文翻訳(概要): The effect of dataset size and the process of big data mining for investigating solar-thermal desalination by using machine learning

論文の概要: The effect of dataset size and the process of big data mining for investigating solar-thermal desalination by using machine learning

arxiv url: http://arxiv.org/abs/2307.12594v2
Date: Wed, 13 Nov 2024 09:29:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:29.158355
Title: The effect of dataset size and the process of big data mining for investigating solar-thermal desalination by using machine learning
Title（参考訳）: 機械学習を用いた太陽熱淡水化調査におけるデータセットサイズとビッグデータマイニングのプロセスの影響
Authors: Guilong Peng, Senshan Sun, Zhenwei Xu, Juxin Du, Yangjun Qin, Swellam W. Sharshir, A. W. Kandel, A. E. Kabeel, Nuo Yang,
Abstract要約: 本研究は, 代表的なソーラースチールのための最適化されたデータセット収集と解析プロセスを開発する。 1000以上のデータセットが収集され、これは最新の作業よりも1桁近く大きい。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine learning's application in solar-thermal desalination is limited by data shortage and inconsistent analysis. This study develops an optimized dataset collection and analysis process for the representative solar still. By ultra-hydrophilic treatment on the condensation cover, the dataset collection process reduces the collection time by 83.3%. Over 1,000 datasets are collected, which is nearly one order of magnitude larger than up-to-date works. Then, a new interdisciplinary process flow is proposed. Some meaningful results are obtained that were not addressed by previous studies. It is found that Radom Forest might be a better choice for datasets larger than 1,000 due to both high accuracy and fast speed. Besides, the dataset range affects the quantified importance (weighted value) of factors significantly, with up to a 115% increment. Moreover, the results show that machine learning has a high accuracy on the extrapolation prediction of productivity, where the minimum mean relative prediction error is just around 4%. The results of this work not only show the necessity of the dataset characteristics' effect but also provide a standard process for studying solar-thermal desalination by machine learning, which would pave the way for interdisciplinary study.
Abstract（参考訳）: 太陽熱脱塩への機械学習の適用は、データ不足と一貫性のない分析によって制限される。本研究は, 代表的なソーラースチールのための最適化されたデータセット収集と解析プロセスを開発する。凝縮カバー上の超親水性処理により、データセット収集プロセスは収集時間を83.3%削減する。 1000以上のデータセットが収集され、これは最新の作業よりも1桁近く大きい。次に,新たな学際的プロセスフローを提案する。過去の研究では解決されなかった有意義な結果が得られた。ラドムフォレストは、高精度と高速の両方のために1000以上のデータセットを選択できる可能性がある。さらにデータセットの範囲は、最大115%の増分で、因子の定量化重要性(重み付け値)に大きく影響する。さらに、機械学習は生産性の補間予測に高い精度を示し、最小平均相対予測誤差は約4%である。この研究の結果は、データセット特性の影響の必要性だけでなく、機械学習による太陽熱脱塩研究の標準的なプロセスも示しており、学際的な研究の道を開くことになる。

関連論文リスト

Ultra-short-term solar power forecasting by deep learning and data reconstruction [60.200987006598524]
深層学習に基づく超短周期太陽エネルギー予測とデータ再構成を提案する。我々は、ターゲット予測期間に対する長期的および短期的依存関係をキャプチャするために、ディープラーニングモデルを用いる。
論文参考訳（メタデータ） (2025-09-21T14:22:35Z)
Towards Data-Efficient Pretraining for Atomic Property Prediction [51.660835328611626]
タスク関連データセットでの事前トレーニングは、大規模な事前トレーニングと一致するか、あるいは超える可能性があることを示す。本稿では,コンピュータビジョンのFr'echet Inception Distanceにインスパイアされた,化学類似度指数(CSI)を紹介する。
論文参考訳（メタデータ） (2025-02-16T11:46:23Z)
Multi-modal Data Fusion and Deep Ensemble Learning for Accurate Crop Yield Prediction [0.0]
本研究では、収穫量を予測するために設計された新しいDeep EnsembleモデルであるRicEns-Netを紹介する。この研究は、合成開口レーダ(SAR)の使用、センチネル1, 2, 3衛星からの光リモートセンシングデータ、表面温度や降雨などの気象測定に焦点を当てている。主な目的は、複雑な環境データを扱うことができる機械学習フレームワークを開発することにより、収量予測の精度を高めることである。
論文参考訳（メタデータ） (2025-02-09T22:48:27Z)
Machine learning in wastewater treatment: insights from modelling a pilot denitrification reactor [0.0]
ノルウェーのヴェアス処理施設にあるパイロット・リアクターのデータを用いて、生物学的硝酸塩の最適化に機械学習をどのように利用できるかを探る。予測精度にのみ焦点をあてるのではなく、本手法は効果的なデータ駆動モデリングのための基礎的要件を理解することを優先する。
論文参考訳（メタデータ） (2024-12-18T16:49:23Z)
Enhancing Multivariate Time Series-based Solar Flare Prediction with Multifaceted Preprocessing and Contrastive Learning [0.9374652839580181]
正確な太陽フレア予測は、宇宙飛行士、宇宙機器、衛星通信システムに強い太陽フレアがもたらす重大なリスクのために重要である。本研究は、先進的なデータ前処理と分類手法を利用して、太陽フレア予測を強化する。
論文参考訳（メタデータ） (2024-09-21T05:00:34Z)
Toward data-driven research: preliminary study to predict surface roughness in material extrusion using previously published data with Machine Learning [4.589830030258457]
本研究の目的は, 材料押出時の表面粗さを最適化するための大規模な実験プログラムの使用を避けることである。提案手法は機械学習モデルを利用して表面粗さを自動的に予測する。
論文参考訳（メタデータ） (2024-06-20T16:40:55Z)
Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文参考訳（メタデータ） (2024-01-29T03:29:39Z)
Spatiotemporal Transformer for Imputing Sparse Data: A Deep Learning Approach [19.665820528292798]
本稿では,スパースデータセットの欠落値問題に対処するため,新しいStemporal Transformerモデル(ST-Transformer)を提案する。このモデルは、自制的なアプローチでトレーニングされており、観察されたデータポイントから欠落した値を自律的に予測することができる。その効果は、テキサス州の36km×36kmグリッド上のSMAP 1土壌水分データに適用することで実証される。
論文参考訳（メタデータ） (2023-12-01T22:39:02Z)
Exploring the Effectiveness of Dataset Synthesis: An application of Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文参考訳（メタデータ） (2023-06-20T09:46:01Z)
Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。蒸留における因果関係から最も寄与した試料を見出した。
論文参考訳（メタデータ） (2023-05-28T06:53:41Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)
A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。ディープラーニング技術はこの10年で前例のない発展を遂げた。本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文参考訳（メタデータ） (2023-01-13T15:11:38Z)
LiDAR dataset distillation within bayesian active learning framework: Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文参考訳（メタデータ） (2022-02-06T00:04:21Z)
Short-term forecasting of global solar irradiance with incomplete data [0.0]
本研究は、日射量と日射量の1日前予測のためのパイプラインを導入する。自動回帰統合型移動平均(ARIMA)、単層フィードフォワードネットワーク(SL-FNN)、複数層フィードフォワードネットワーク(FL-FNN)、長短期メモリ(LSTM)の4つの手法を検討する。実験は、成野-コロンビアにある12の自動気象観測所(AWS)で収集された実世界のデータセットで実施される。
論文参考訳（メタデータ） (2021-06-12T21:44:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。