論文の概要: A Novel ML-driven Test Case Selection Approach for Enhancing the
Performance of Grammatical Evolution
- arxiv url: http://arxiv.org/abs/2312.14321v1
- Date: Thu, 21 Dec 2023 22:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 16:36:28.019514
- Title: A Novel ML-driven Test Case Selection Approach for Enhancing the
Performance of Grammatical Evolution
- Title(参考訳): ML駆動型テストケース選択手法による文法的進化の促進
- Authors: Krishn Kumar Gupt, Meghana Kshirsagar, Douglas Mota Dias, Joseph P.
Sullivan, Conor Ryan
- Abstract要約: テストケースの最適化により適合度評価時間を短縮する,機械学習駆動距離ベース選択(DBS)アルゴリズムを提案する。
我々は,Symbolic Regression(SR)とDigital Circuit Domainの24のベンチマーク問題に適用し,次に文法進化(GE)を用いて,削減されたデータセットを用いてモデルをトレーニングすることによって,アルゴリズムを検証した。
DBSを用いて選択したトレーニングデータのカバレッジ、すなわちサブセットがデータセット全体の統計特性とどの程度うまく一致しているかを測定するため、従来のトレーニング手法と比較して、ソリューションの品質をテストして比較する。
- 参考スコア(独自算出の注目度): 0.07499722271664144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computational cost in metaheuristics such as Evolutionary Algorithms (EAs) is
often a major concern, particularly with their ability to scale. In data-based
training, traditional EAs typically use a significant portion, if not all, of
the dataset for model training and fitness evaluation in each generation. This
makes EAs suffer from high computational costs incurred during the fitness
evaluation of the population, particularly when working with large datasets. To
mitigate this issue, we propose a Machine Learning (ML)-driven Distance-based
Selection (DBS) algorithm that reduces the fitness evaluation time by
optimizing test cases. We test our algorithm by applying it to 24 benchmark
problems from Symbolic Regression (SR) and digital circuit domains and then
using Grammatical Evolution (GE) to train models using the reduced dataset. We
use GE to test DBS on SR and produce a system flexible enough to test it on
digital circuit problems further. The quality of the solutions is tested and
compared against the conventional training method to measure the coverage of
training data selected using DBS, i.e., how well the subset matches the
statistical properties of the entire dataset. Moreover, the effect of optimized
training data on run time and the effective size of the evolved solutions is
analyzed. Experimental and statistical evaluations of the results show our
method empowered GE to yield superior or comparable solutions to the baseline
(using the full datasets) with smaller sizes and demonstrates computational
efficiency in terms of speed.
- Abstract(参考訳): 進化的アルゴリズム(EA)のようなメタヒューリスティックスの計算コストは、特にスケールする能力において、しばしば大きな関心事である。
データベースのトレーニングでは、従来のEAは、モデルトレーニングと各世代における適合度評価のために、データセットのかなりの部分を使用する。
これにより、EAは、特に大規模なデータセットを扱う場合、人口の適合度評価中に発生する高い計算コストに悩まされる。
この問題を軽減するために,テストケースの最適化により適合性評価時間を短縮する機械学習(ML)駆動距離ベース選択(DBS)アルゴリズムを提案する。
我々は,Symbolic Regression(SR)とDigital Circuit Domainの24のベンチマーク問題に適用し,次に文法進化(GE)を用いて,縮小データセットを用いたモデルのトレーニングを行う。
GE を用いて SR 上で DBS をテストし、さらにデジタル回路問題でテストするのに十分なフレキシブルなシステムを生成する。
ソリューションの品質をテストし、従来のトレーニング方法と比較し、dbで選択されたトレーニングデータのカバレッジ、すなわち、サブセットがデータセット全体の統計特性にどの程度合っているかを測定する。
さらに、最適化されたトレーニングデータが実行時間と進化したソリューションの有効サイズに与える影響を分析する。
実験および統計的評価により,GE法は,より小さいサイズで(全データセットを用いて)ベースラインに対して優れた,あるいは同等の解が得られることを示すとともに,速度の観点から計算効率を示す。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - In-Database Data Imputation [0.6157028677798809]
データの欠落は多くの領域で広く問題となり、データ分析と意思決定の課題を生み出します。
不完全なレコードを除外したり、単純な見積もりを示唆するといった、欠落したデータを扱う従来の手法は、計算的に効率的であるが、バイアスを導入し、変数の関係を乱す可能性がある。
モデルベースの計算手法は、データの変動性と関係を保存し、より堅牢なソリューションを提供するが、彼らは計算時間をはるかに多く要求する。
この作業は、広く使われているMICE方式を用いて、データベースシステム内の効率的で高品質でスケーラブルなデータ計算を可能にする。
論文 参考訳(メタデータ) (2024-01-07T01:57:41Z) - On the Convergence of Loss and Uncertainty-based Active Learning Algorithms [3.506897386829711]
本研究では、勾配降下法(SGD)アルゴリズムを用いて機械学習モデルの学習に必要な収束率とデータサンプルサイズについて検討する。
線形分類器と線形分離可能なデータセットに対する2乗ヒンジ損失と類似のトレーニング損失関数を用いた収束結果を提案する。
論文 参考訳(メタデータ) (2023-12-21T15:22:07Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Stabilizing Subject Transfer in EEG Classification with Divergence
Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。
理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。
我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文 参考訳(メタデータ) (2023-10-12T23:06:52Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Machine Learning Capability: A standardized metric using case difficulty
with applications to individualized deployment of supervised machine learning [2.2060666847121864]
モデル評価は教師付き機械学習分類解析において重要な要素である。
アイテム応答理論(IRT)と機械学習を用いたコンピュータ適応テスト(CAT)は、最終分類結果とは無関係にデータセットをベンチマークすることができる。
論文 参考訳(メタデータ) (2023-02-09T00:38:42Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。