論文の概要: Boosting SISSO Performance on Small Sample Datasets by Using Random Forests Prescreening for Complex Feature Selection
- arxiv url: http://arxiv.org/abs/2409.19209v1
- Date: Sat, 28 Sep 2024 02:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 04:01:11.104851
- Title: Boosting SISSO Performance on Small Sample Datasets by Using Random Forests Prescreening for Complex Feature Selection
- Title(参考訳): 複雑な特徴選択のためのランダムフォレストプレスクリーニングによる小さなサンプルデータセット上でのSISSO性能向上
- Authors: Xiaolin Jiang, Guanqi Liu, Jiaying Xie, Zhenpeng Hu,
- Abstract要約: 記号回帰は、大きなデータセットから材料記述子を抽出する鍵である。
本稿では、ランダムフォレスト(RF)とSISSOを組み合わせたRF-SISSOアルゴリズムを提案する。
RF-SISSOは4つのトレーニングサンプルサイズで0.9以上のテスト精度を維持することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In materials science, data-driven methods accelerate material discovery and optimization while reducing costs and improving success rates. Symbolic regression is a key to extracting material descriptors from large datasets, in particular the Sure Independence Screening and Sparsifying Operator (SISSO) method. While SISSO needs to store the entire expression space to impose heavy memory demands, it limits the performance in complex problems. To address this issue, we propose a RF-SISSO algorithm by combining Random Forests (RF) with SISSO. In this algorithm, the Random Forest algorithm is used for prescreening, capturing non-linear relationships and improving feature selection, which may enhance the quality of the input data and boost the accuracy and efficiency on regression and classification tasks. For a testing on the SISSO's verification problem for 299 materials, RF-SISSO demonstrates its robust performance and high accuracy. RF-SISSO can maintain the testing accuracy above 0.9 across all four training sample sizes and significantly enhancing regression efficiency, especially in training subsets with smaller sample sizes. For the training subset with 45 samples, the efficiency of RF-SISSO was 265 times higher than that of original SISSO. As collecting large datasets would be both costly and time-consuming in the practical experiments, it is thus believed that RF-SISSO may benefit scientific researches by offering a high predicting accuracy with limited data efficiently.
- Abstract(参考訳): 材料科学において、データ駆動方式は、コストを削減し、成功率を向上させるとともに、材料発見と最適化を加速する。
シンボリック回帰は、大規模なデータセット、特にSure Independence Screening and Sparsifying Operator(SISSO)メソッドから材料記述子を抽出する鍵である。
SISSOは、大量のメモリを必要とするため、式空間全体を格納する必要があるが、複雑な問題ではパフォーマンスが制限される。
この問題に対処するために、ランダムフォレスト(RF)とSISSOを組み合わせたRF-SISSOアルゴリズムを提案する。
このアルゴリズムでは、ランダムフォレストアルゴリズムは、非線形関係の事前スクリーニング、キャプチャ、特徴選択の改善に使われ、入力データの質を高め、回帰および分類タスクの精度と効率を高めることができる。
299の材料に対するSISSOの検証問題をテストするために、RF-SISSOは頑健な性能と高い精度を示す。
RF-SISSOは4つのトレーニングサンプルサイズすべてで0.9以上のテスト精度を維持し、特にサンプルサイズが小さいトレーニングサブセットにおいて、回帰効率を著しく向上させることができる。
45サンプルのトレーニングサブセットでは,RF-SISSOの効率は元のSISSOの265倍であった。
大規模データセットの収集は実用実験に費用と時間を要するため、RF-SISSOは限られたデータで高い予測精度を効率的に提供することで科学的研究に有用であると考えられる。
関連論文リスト
- A Novel ML-driven Test Case Selection Approach for Enhancing the
Performance of Grammatical Evolution [0.07499722271664144]
テストケースの最適化により適合度評価時間を短縮する,機械学習駆動距離ベース選択(DBS)アルゴリズムを提案する。
我々は,Symbolic Regression(SR)とDigital Circuit Domainの24のベンチマーク問題に適用し,次に文法進化(GE)を用いて,削減されたデータセットを用いてモデルをトレーニングすることによって,アルゴリズムを検証した。
DBSを用いて選択したトレーニングデータのカバレッジ、すなわちサブセットがデータセット全体の統計特性とどの程度うまく一致しているかを測定するため、従来のトレーニング手法と比較して、ソリューションの品質をテストして比較する。
論文 参考訳(メタデータ) (2023-12-21T22:21:02Z) - Soft Random Sampling: A Theoretical and Empirical Analysis [59.719035355483875]
ソフトランダムサンプリング(SRS)は、大量のデータを扱う際に、効率的なディープニューラルネットワークに対して単純だが効果的なアプローチである。
それは、各エポックに設定された各データセットから、ランダムに置換された均一な速度を選択する。
実世界の産業規模で重要な競争力を持つ、強力で競争力のある戦略であることが示されている。
論文 参考訳(メタデータ) (2023-11-21T17:03:21Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Analysis and Optimization of Wireless Federated Learning with Data
Heterogeneity [72.85248553787538]
本稿では、データの不均一性を考慮した無線FLの性能解析と最適化と、無線リソース割り当てについて述べる。
ロス関数の最小化問題を、長期エネルギー消費と遅延の制約の下で定式化し、クライアントスケジューリング、リソース割り当て、ローカルトレーニングエポック数(CRE)を共同で最適化する。
実世界のデータセットの実験により、提案アルゴリズムは学習精度とエネルギー消費の点で他のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-04T04:18:01Z) - Simple and Effective Augmentation Methods for CSI Based Indoor
Localization [37.3026733673066]
物理的考察により,チャネル状態情報に基づく屋内位置推定のための2つのアルゴリズムを提案する。
オリジナルのデータセットのサイズの10%は、オリジナルのデータセットと同じパフォーマンスを得るのに十分です。
提案手法によりさらにデータセットを増大させると、テスト精度は3倍以上に向上する。
論文 参考訳(メタデータ) (2022-11-19T20:27:46Z) - Partitioned Gradient Matching-based Data Subset Selection for
Compute-Efficient Robust ASR Training [32.68124808736473]
PGM(Partitioned Gradient Matching)は、RNN-Tのトレーニングに使用されるような、大規模なデータセットに適している。
PGMは3倍から6倍のスピードアップを達成できるが,精度は極めて低い。
論文 参考訳(メタデータ) (2022-10-30T17:22:57Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - High Dimensional Level Set Estimation with Bayesian Neural Network [58.684954492439424]
本稿では,ベイズニューラルネットワークを用いた高次元レベル集合推定問題を解く新しい手法を提案する。
各問題に対して対応する理論情報に基づく取得関数を導出してデータポイントをサンプリングする。
合成データセットと実世界データセットの数値実験により,提案手法は既存手法よりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2020-12-17T23:21:53Z) - Self-paced Data Augmentation for Training Neural Networks [11.554821454921536]
本稿では,ニューラルネットワークをトレーニングする際のデータ拡張に適したサンプルを自動的に選択するセルフペース拡張を提案する。
提案手法は,非効率なデータ拡張による一般化性能の低下を緩和する。
実験結果から,SPAは,特にトレーニングサンプル数が少ない場合,一般化性能を向上できることが示された。
論文 参考訳(メタデータ) (2020-10-29T09:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。