論文の概要: Ratio law: mathematical descriptions for a universal relationship between AI performance and input samples
- arxiv url: http://arxiv.org/abs/2411.00913v1
- Date: Fri, 01 Nov 2024 13:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:42:27.740673
- Title: Ratio law: mathematical descriptions for a universal relationship between AI performance and input samples
- Title(参考訳): 比例法:AI性能と入力サンプルの普遍的関係に関する数学的記述
- Authors: Boming Kang, Qinghua Cui,
- Abstract要約: モデル性能と少数サンプルと多数サンプルの比率が2つの簡潔な方程式によって密接な関係を持つことを示す比則を示す。
数学的に、バランスの取れたデータセット上でAIモデルがその最適な性能を達成することを証明した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Artificial intelligence based on machine learning and deep learning has made significant advances in various fields such as protein structure prediction and climate modeling. However, a central challenge remains: the "black box" nature of AI, where precise quantitative relationships between inputs and outputs are often lacking. Here, by analyzing 323 AI models trained to predict human essential proteins, we uncovered a ratio law showing that model performance and the ratio of minority to majority samples can be closely linked by two concise equations. Moreover, we mathematically proved that an AI model achieves its optimal performance on a balanced dataset. More importantly, we next explore whether this finding can further guide us to enhance AI models' performance. Therefore, we divided the imbalanced dataset into several balanced subsets to train base classifiers, and then applied a bagging-based ensemble learning strategy to combine these base models. As a result, the equation-guided strategy substantially improved model performance, with increases of 4.06% and 5.28%, respectively, outperforming traditional dataset balancing techniques. Finally, we confirmed the broad applicability and generalization of these equations using different types of classifiers and 10 additional, diverse binary classification tasks. In summary, this study reveals two equations precisely linking AI's input and output, which could be helpful for unboxing the mysterious "black box" of AI.
- Abstract(参考訳): 機械学習とディープラーニングに基づく人工知能は、タンパク質構造予測や気候モデリングなど、さまざまな分野で大きな進歩を遂げている。
しかし、AIの「ブラックボックス」の性質は、入力と出力の正確な量的関係が欠如していることが多い。
そこで本研究では,ヒト必須タンパク質を予測するために訓練された323個のAIモデルを解析することにより,モデル性能と少数サンプルと多数サンプルの比率が2つの簡潔な方程式によって密接な関係を持つことを示す比則を発見した。
さらに,バランスの取れたデータセット上でAIモデルが最適な性能を達成することを数学的に証明した。
さらに重要なのは、この発見がAIモデルのパフォーマンス向上をさらに導くことができるかどうかだ。
そこで,不均衡なデータセットを複数のバランスの取れたサブセットに分割してベース分類器を訓練し,バッジベースのアンサンブル学習戦略を適用した。
その結果、方程式誘導戦略はモデル性能を大幅に改善し、それぞれ4.06%と5.28%が増加し、従来のデータセットバランス技術を上回った。
最後に,異なるタイプの分類器と10種類の二分分類タスクを用いて,これらの方程式の広範な適用性と一般化を確認した。
要約すると、この研究はAIの入力と出力を正確にリンクする2つの方程式を明らかにする。
関連論文リスト
- Dynamic Post-Hoc Neural Ensemblers [55.15643209328513]
本研究では,ニューラルネットワークをアンサンブル手法として活用することを検討する。
低多様性のアンサンブルを学習するリスクを動機として,ベースモデル予測をランダムにドロップすることでモデルの正規化を提案する。
このアプローチはアンサンブル内の多様性を低くし、オーバーフィッティングを減らし、一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-10-06T15:25:39Z) - SynthTree: Co-supervised Local Model Synthesis for Explainable Prediction [15.832975722301011]
本稿では,最小限の精度で説明可能性を向上させる手法を提案する。
我々は,AI技術を利用してノードを推定する新しい手法を開発した。
我々の研究は、統計的方法論が説明可能なAIを前進させる上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-06-16T14:43:01Z) - A comprehensible analysis of the efficacy of Ensemble Models for Bug
Prediction [0.0]
我々は,単一のAIモデルとアンサンブルAIモデルという,2つのAIベースのアプローチの比較と分析を行い,Javaクラスがバグのある確率を予測する。
実験結果から,AIモデルのアンサンブルは,個々のAIモデルの適用結果より優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-10-18T17:43:54Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Generalized Oversampling for Learning from Imbalanced datasets and
Associated Theory [0.0]
教師あり学習では、実際の不均衡なデータセットに直面することが多い。
本稿では,カーネル密度推定に基づくデータ拡張手法であるGOLIATHアルゴリズムを提案する。
我々は,不均衡な回帰状況下でのGOLIATHアルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-08-05T23:08:08Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Using Explainable Boosting Machine to Compare Idiographic and Nomothetic
Approaches for Ecological Momentary Assessment Data [2.0824228840987447]
本稿では,非線形解釈型機械学習(ML)モデルを用いた分類問題について検討する。
木々の様々なアンサンブルは、不均衡な合成データセットと実世界のデータセットを用いて線形モデルと比較される。
2つの実世界のデータセットのうちの1つで、知識蒸留法は改善されたAUCスコアを達成する。
論文 参考訳(メタデータ) (2022-04-04T17:56:37Z) - Interpretable pipelines with evolutionarily optimized modules for RL
tasks with visual inputs [5.254093731341154]
進化的アルゴリズムを用いて協調最適化された複数の解釈可能なモデルからなるエンドツーエンドパイプラインを提案する。
Atariベンチマークの強化学習環境において,本手法を検証した。
論文 参考訳(メタデータ) (2022-02-10T10:33:44Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。