論文の概要: Optimal Data Generation in Multi-Dimensional Parameter Spaces, using
Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2312.02012v1
- Date: Mon, 4 Dec 2023 16:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 14:43:07.553101
- Title: Optimal Data Generation in Multi-Dimensional Parameter Spaces, using
Bayesian Optimization
- Title(参考訳): ベイズ最適化を用いた多次元パラメータ空間における最適データ生成
- Authors: M. R. Mahani, Igor A. Nechepurenko, Yasmin Rahimof, Andreas Wicht
- Abstract要約: 本稿では,機械学習モデルを学習するための最小限の高情報データベースを構築するための新しい手法を提案する。
ガウス過程回帰(GPR)を用いた出力パラメータと入力パラメータの関係を模倣する。
GPRにより予測される標準偏差を考慮し,ベイジアン最適化を用いてデータ点を選択し,MLモデルの学習に有効なデータベースを得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acquiring a substantial number of data points for training accurate machine
learning (ML) models is a big challenge in scientific fields where data
collection is resource-intensive. Here, we propose a novel approach for
constructing a minimal yet highly informative database for training ML models
in complex multi-dimensional parameter spaces. To achieve this, we mimic the
underlying relation between the output and input parameters using Gaussian
process regression (GPR). Using a set of known data, GPR provides predictive
means and standard deviation for the unknown data. Given the predicted standard
deviation by GPR, we select data points using Bayesian optimization to obtain
an efficient database for training ML models. We compare the performance of ML
models trained on databases obtained through this method, with databases
obtained using traditional approaches. Our results demonstrate that the ML
models trained on the database obtained using Bayesian optimization approach
consistently outperform the other two databases, achieving high accuracy with a
significantly smaller number of data points. Our work contributes to the
resource-efficient collection of data in high-dimensional complex parameter
spaces, to achieve high precision machine learning predictions.
- Abstract(参考訳): 正確な機械学習(ML)モデルをトレーニングするための大量のデータポイントを取得することは、データ収集がリソース集約的な科学分野において大きな課題である。
本稿では,複雑な多次元パラメータ空間におけるmlモデルの学習のための最小かつ高情報データベースを構築するための新しい手法を提案する。
これを実現するために、ガウス過程回帰(GPR)を用いて出力パラメータと入力パラメータの関係を模倣する。
既知のデータの集合を用いて、GPRは未知のデータに対する予測手段と標準偏差を提供する。
GPRによる予測標準偏差を考慮し,ベイジアン最適化を用いてデータ点を選択し,MLモデルの学習に有効なデータベースを得る。
本手法により得られたデータベースに基づいて学習したMLモデルの性能と,従来の手法を用いたデータベースとの比較を行った。
その結果,ベイジアン最適化手法を用いて学習したデータベース上で学習したMLモデルは,他の2つのデータベースより一貫して優れており,精度は極めて低い。
本研究は,高次元複素パラメータ空間におけるデータ収集に寄与し,高精度な機械学習予測を実現する。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Variational Factorization Machines for Preference Elicitation in
Large-Scale Recommender Systems [17.050774091903552]
本稿では, 標準のミニバッチ降下勾配を用いて容易に最適化できる因子化機械 (FM) の変分定式化を提案する。
提案アルゴリズムは,ユーザおよび項目パラメータに近似した後続分布を学習し,予測に対する信頼区間を導出する。
いくつかのデータセットを用いて、予測精度の点で既存の手法と同等または優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T00:06:28Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Efficient and Accurate In-Database Machine Learning with SQL Code
Generation in Python [0.0]
Jinja2のテンプレートマクロを用いたPythonのデータベース内機械学習(IDBML)の新しい手法について説明します。
提案手法は,1つのインメモリデータセットの2~3倍の精度で,現在の最先端手法(決定木とランダム林)よりも2~3%低かった。
論文 参考訳(メタデータ) (2021-04-07T16:23:19Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。