論文の概要: Learning from Sparse Datasets: Predicting Concrete's Strength by Machine
Learning
- arxiv url: http://arxiv.org/abs/2004.14407v1
- Date: Wed, 29 Apr 2020 18:06:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 14:37:21.698920
- Title: Learning from Sparse Datasets: Predicting Concrete's Strength by Machine
Learning
- Title(参考訳): スパースデータセットからの学習:機械学習によるコンクリートの強度予測
- Authors: Boya Ouyang, Yuhai Li, Yu Song, Feishu Wu, Huizi Yu, Yongzhe Wang,
Mathieu Bauchy, and Gaurav Sant
- Abstract要約: データ駆動機械学習は、コンクリートの混合比と強度の間の複雑で非線形で非付加的な関係を扱うことを約束している。
ここでは、データセットの大きさの関数として具体的な強度を確実に予測する方法を「学習」するMLアルゴリズムを選択する能力の比較を行う。
- 参考スコア(独自算出の注目度): 2.350486334305103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite enormous efforts over the last decades to establish the relationship
between concrete proportioning and strength, a robust knowledge-based model for
accurate concrete strength predictions is still lacking. As an alternative to
physical or chemical-based models, data-driven machine learning (ML) methods
offer a new solution to this problem. Although this approach is promising for
handling the complex, non-linear, non-additive relationship between concrete
mixture proportions and strength, a major limitation of ML lies in the fact
that large datasets are needed for model training. This is a concern as
reliable, consistent strength data is rather limited, especially for realistic
industrial concretes. Here, based on the analysis of a large dataset (>10,000
observations) of measured compressive strengths from industrially-produced
concretes, we compare the ability of select ML algorithms to "learn" how to
reliably predict concrete strength as a function of the size of the dataset.
Based on these results, we discuss the competition between how accurate a given
model can eventually be (when trained on a large dataset) and how much data is
actually required to train this model.
- Abstract(参考訳): コンクリート比例と強度の関係を確立するための過去数十年の多大な努力にもかかわらず、正確なコンクリートの強度予測のための堅牢な知識ベースモデルはまだ不足している。
物理モデルや化学モデルに代わるものとして、データ駆動機械学習(ML)メソッドは、この問題に対する新しい解決策を提供する。
このアプローチは、コンクリート混合物の割合と強度の間の複雑で非線形で非付加的な関係を扱うことを約束するが、MLの大きな制限は、モデルトレーニングに大規模なデータセットが必要であるという事実にある。
信頼性が高く、一貫性のある強度のデータは、特に現実的な工業用コンクリートでは、かなり限られている。
ここでは, 産業生産コンクリートから得られた圧縮強度の大規模データセット (>10,000) を分析した結果, MLアルゴリズムを選択して, モデルの大きさの関数として, コンクリート強度を確実に予測する方法を「学習」する能力の比較を行った。
これらの結果に基づき、与えられたモデルが最終的に(大規模なデータセットでトレーニングされた場合)どれだけ正確であるかと、そのモデルのトレーニングに実際にどれだけのデータが必要かの競合について論じる。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Extrapolative ML Models for Copolymers [1.901715290314837]
機械学習モデルは、材料特性の予測に徐々に使われてきた。
これらのモデルは本質的に補間的であり、物質の既知の特性範囲外の候補を探索するための有効性は未解決である。
本稿では,MLモデルの外挿能力,トレーニングデータセットのサイズと範囲,学習アプローチとの関係について検討する。
論文 参考訳(メタデータ) (2024-09-15T11:02:01Z) - PUMA: margin-based data pruning [51.12154122266251]
モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。
我々は,DeepFoolを用いてマージンを算出する新しいデータプルーニング戦略PUMAを提案する。
PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-10T08:02:20Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric
Learning [1.4293924404819704]
我々は情報理論の観点から、隣り合う従来のアルゴリズムに新たな光を当てた。
単一モデルを用いた分類,回帰,密度推定,異常検出などのタスクに対する頑健で解釈可能なフレームワークを提案する。
我々の研究は、分類と異常検出における最先端の成果を達成することによって、アーキテクチャの汎用性を示す。
論文 参考訳(メタデータ) (2023-11-17T00:35:38Z) - An Investigation of Smart Contract for Collaborative Machine Learning
Model Training [3.5679973993372642]
協調機械学習(CML)はビッグデータ時代において様々な分野に浸透してきた。
MLモデルのトレーニングには大量の高品質なデータが必要であるため、データのプライバシに関する懸念を取り除く必要がある。
ブロックチェーンに基づいて、スマートコントラクトはデータ保存とバリデーションの自動実行を可能にする。
論文 参考訳(メタデータ) (2022-09-12T04:25:01Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Deep Learning with Multiple Data Set: A Weighted Goal Programming
Approach [2.7393821783237184]
大規模データ分析は、我々の社会でデータが増大するにつれて、指数的な速度で成長している。
ディープラーニングモデルはたくさんのリソースを必要とし、分散トレーニングが必要です。
本稿では,分散学習のためのマルチ基準アプローチを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:10:25Z) - PyHard: a novel tool for generating hardness embeddings to support
data-centric analysis [0.38233569758620045]
PyHardは、複数のMLモデルの予測パフォーマンスに関連するデータセットの硬度埋め込みを生成する。
ユーザは、この埋め込みを複数の方法で操作することで、データとアルゴリズムのパフォーマンスに関する有用な洞察を得ることができる。
我々は、この分析が、MLモデルに挑戦するハードな観察のポケットの識別をどのように支援したかを示す。
論文 参考訳(メタデータ) (2021-09-29T14:08:26Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。