Fugu-MT 論文翻訳(概要): Learning from Sparse Datasets: Predicting Concrete's Strength by Machine Learning

論文の概要: Learning from Sparse Datasets: Predicting Concrete's Strength by Machine Learning

arxiv url: http://arxiv.org/abs/2004.14407v1
Date: Wed, 29 Apr 2020 18:06:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 14:37:21.698920
Title: Learning from Sparse Datasets: Predicting Concrete's Strength by Machine Learning
Title（参考訳）: スパースデータセットからの学習:機械学習によるコンクリートの強度予測
Authors: Boya Ouyang, Yuhai Li, Yu Song, Feishu Wu, Huizi Yu, Yongzhe Wang, Mathieu Bauchy, and Gaurav Sant
Abstract要約: データ駆動機械学習は、コンクリートの混合比と強度の間の複雑で非線形で非付加的な関係を扱うことを約束している。ここでは、データセットの大きさの関数として具体的な強度を確実に予測する方法を「学習」するMLアルゴリズムを選択する能力の比較を行う。
参考スコア（独自算出の注目度）: 2.350486334305103
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite enormous efforts over the last decades to establish the relationship between concrete proportioning and strength, a robust knowledge-based model for accurate concrete strength predictions is still lacking. As an alternative to physical or chemical-based models, data-driven machine learning (ML) methods offer a new solution to this problem. Although this approach is promising for handling the complex, non-linear, non-additive relationship between concrete mixture proportions and strength, a major limitation of ML lies in the fact that large datasets are needed for model training. This is a concern as reliable, consistent strength data is rather limited, especially for realistic industrial concretes. Here, based on the analysis of a large dataset (>10,000 observations) of measured compressive strengths from industrially-produced concretes, we compare the ability of select ML algorithms to "learn" how to reliably predict concrete strength as a function of the size of the dataset. Based on these results, we discuss the competition between how accurate a given model can eventually be (when trained on a large dataset) and how much data is actually required to train this model.
Abstract（参考訳）: コンクリート比例と強度の関係を確立するための過去数十年の多大な努力にもかかわらず、正確なコンクリートの強度予測のための堅牢な知識ベースモデルはまだ不足している。物理モデルや化学モデルに代わるものとして、データ駆動機械学習(ML)メソッドは、この問題に対する新しい解決策を提供する。このアプローチは、コンクリート混合物の割合と強度の間の複雑で非線形で非付加的な関係を扱うことを約束するが、MLの大きな制限は、モデルトレーニングに大規模なデータセットが必要であるという事実にある。信頼性が高く、一貫性のある強度のデータは、特に現実的な工業用コンクリートでは、かなり限られている。ここでは, 産業生産コンクリートから得られた圧縮強度の大規模データセット (>10,000) を分析した結果, MLアルゴリズムを選択して, モデルの大きさの関数として, コンクリート強度を確実に予測する方法を「学習」する能力の比較を行った。これらの結果に基づき、与えられたモデルが最終的に(大規模なデータセットでトレーニングされた場合)どれだけ正確であるかと、そのモデルのトレーニングに実際にどれだけのデータが必要かの競合について論じる。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Can Mixture-of-Experts Surpass Dense LLMs Under Strictly Equal Resources? [58.56306556151929]
Mixture-of-Experts (MoE)言語モデルは、モデルキャパシティを劇的に拡張し、トーケン毎の計算量を増やすことなく優れたパフォーマンスを達成する。 MoEsは厳密なリソース制約の下で密集したアーキテクチャを超えることができるか? 最適領域における活性化率を持つMoEモデルは,同じパラメータ,トレーニング計算,およびデータ資源の下で,その密度の高いモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-13T17:59:05Z)
Losing is for Cherishing: Data Valuation Based on Machine Unlearning and Shapley Value [18.858879113762917]
我々は、機械学習を利用してデータ値を効率的に推定する新しいフレームワークUnlearning Shapleyを提案する。提案手法は,モンテカルロサンプリングによるシェープリー値の計算を行い,再学習を回避し,全データへの依存を排除した。この作業は、データバリュエーション理論と実践的デプロイメントのギャップを埋め、現代のAIエコシステムにスケーラブルでプライバシに準拠したソリューションを提供する。
論文参考訳（メタデータ） (2025-05-22T02:46:03Z)
Data Fusion of Deep Learned Molecular Embeddings for Property Prediction [44.99833362998488]
我々はデータ融合技術を用いて、様々な単一タスクモデルの学習された分子組込みを組み合わせ、この組込みについてマルチタスクモデルを訓練した。融合マルチタスクモデルはスパースデータセットの標準マルチタスクモデルより優れており、単一タスクモデルと比較してデータ制限特性の予測が拡張可能であることを示す。
論文参考訳（メタデータ） (2025-04-09T21:40:15Z)
Predicting Large Language Model Capabilities on Closed-Book QA Tasks Using Only Information Available Prior to Training [51.60874286674908]
我々は,事前学習データと知識保持に密接に結びついているCBQAタスクの性能予測に焦点をあてる。 1)事前学習プロセス全体,特にデータ構築を習得すること,2)モデルの知識保持を評価すること,3)トレーニング前に利用可能な情報のみを使用してタスク固有の知識保持を予測すること,の3つの課題に対処する。本稿では,事前学習データ,モデルサイズ,タスク固有の知識保持との関係を定量化する情報理論尺度であるSMIメトリクスを紹介する。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。 UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文参考訳（メタデータ） (2025-01-20T21:10:22Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Extrapolative ML Models for Copolymers [1.901715290314837]
機械学習モデルは、材料特性の予測に徐々に使われてきた。これらのモデルは本質的に補間的であり、物質の既知の特性範囲外の候補を探索するための有効性は未解決である。本稿では,MLモデルの外挿能力,トレーニングデータセットのサイズと範囲,学習アプローチとの関係について検討する。
論文参考訳（メタデータ） (2024-09-15T11:02:01Z)
PUMA: margin-based data pruning [51.12154122266251]
モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。我々は,DeepFoolを用いてマージンを算出する新しいデータプルーニング戦略PUMAを提案する。 PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2024-05-10T08:02:20Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric Learning [1.4293924404819704]
我々は情報理論の観点から、隣り合う従来のアルゴリズムに新たな光を当てた。単一モデルを用いた分類,回帰,密度推定,異常検出などのタスクに対する頑健で解釈可能なフレームワークを提案する。我々の研究は、分類と異常検出における最先端の成果を達成することによって、アーキテクチャの汎用性を示す。
論文参考訳（メタデータ） (2023-11-17T00:35:38Z)
An Investigation of Smart Contract for Collaborative Machine Learning Model Training [3.5679973993372642]
協調機械学習(CML)はビッグデータ時代において様々な分野に浸透してきた。 MLモデルのトレーニングには大量の高品質なデータが必要であるため、データのプライバシに関する懸念を取り除く必要がある。ブロックチェーンに基づいて、スマートコントラクトはデータ保存とバリデーションの自動実行を可能にする。
論文参考訳（メタデータ） (2022-09-12T04:25:01Z)
Learning to be a Statistician: Learned Estimator for Number of Distinct Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文参考訳（メタデータ） (2022-02-06T15:42:04Z)
Deep Learning with Multiple Data Set: A Weighted Goal Programming Approach [2.7393821783237184]
大規模データ分析は、我々の社会でデータが増大するにつれて、指数的な速度で成長している。ディープラーニングモデルはたくさんのリソースを必要とし、分散トレーニングが必要です。本稿では,分散学習のためのマルチ基準アプローチを提案する。
論文参考訳（メタデータ） (2021-11-27T07:10:25Z)
PyHard: a novel tool for generating hardness embeddings to support data-centric analysis [0.38233569758620045]
PyHardは、複数のMLモデルの予測パフォーマンスに関連するデータセットの硬度埋め込みを生成する。ユーザは、この埋め込みを複数の方法で操作することで、データとアルゴリズムのパフォーマンスに関する有用な洞察を得ることができる。我々は、この分析が、MLモデルに挑戦するハードな観察のポケットの識別をどのように支援したかを示す。
論文参考訳（メタデータ） (2021-09-29T14:08:26Z)
Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文参考訳（メタデータ） (2021-03-08T16:03:09Z)
MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文参考訳（メタデータ） (2020-11-01T18:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。