論文の概要: Evaluation of Tree Based Regression over Multiple Linear Regression for
Non-normally Distributed Data in Battery Performance
- arxiv url: http://arxiv.org/abs/2111.02513v1
- Date: Wed, 3 Nov 2021 20:28:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-06 02:51:33.487197
- Title: Evaluation of Tree Based Regression over Multiple Linear Regression for
Non-normally Distributed Data in Battery Performance
- Title(参考訳): 電池性能の非正規分散データに対する複数線形回帰に対する木ベース回帰の評価
- Authors: Shovan Chowdhury, Yuxiao Lin, Boryann Liaw, Leslie Kerby
- Abstract要約: 本研究では,機械学習モデル構築におけるデータ正規性の影響について検討する。
木に基づく回帰モデルと複数の線形回帰モデルは、それぞれ高度に歪んだ非正規データセットから構築される。
- 参考スコア(独自算出の注目度): 0.5735035463793008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Battery performance datasets are typically non-normal and multicollinear.
Extrapolating such datasets for model predictions needs attention to such
characteristics. This study explores the impact of data normality in building
machine learning models. In this work, tree-based regression models and
multiple linear regressions models are each built from a highly skewed
non-normal dataset with multicollinearity and compared. Several techniques are
necessary, such as data transformation, to achieve a good multiple linear
regression model with this dataset; the most useful techniques are discussed.
With these techniques, the best multiple linear regression model achieved an
R^2 = 81.23% and exhibited no multicollinearity effect for the dataset used in
this study. Tree-based models perform better on this dataset, as they are
non-parametric, capable of handling complex relationships among variables and
not affected by multicollinearity. We show that bagging, in the use of Random
Forests, reduces overfitting. Our best tree-based model achieved accuracy of
R^2 = 97.73%. This study explains why tree-based regressions promise as a
machine learning model for non-normally distributed, multicollinear data.
- Abstract(参考訳): バッテリパフォーマンスデータセットは通常、非正規およびマルチコリニアである。
モデル予測のためにこのようなデータセットを推定するには、そのような特性に注意する必要がある。
本研究では,機械学習モデル構築におけるデータ正規性の影響について検討する。
本研究では,木に基づく回帰モデルと多重線形回帰モデルについて,マルチコリニア性を持つ高度に歪んだ非正規データセットから構築し,比較する。
このデータセットで良質な多重線形回帰モデルを達成するためには、データ変換のようないくつかの技術が必要である。
これらの手法により、最良の多重回帰モデルは、R^2 = 81.23%に達し、本研究で使用されるデータセットに対して多重線型性効果は示さなかった。
木ベースのモデルは、非パラメトリックであり、変数間の複雑な関係を処理でき、マルチコリニティの影響を受けないため、このデータセット上でより良く機能する。
ランダムな森林の利用において、袋詰めは過剰フィットを減少させる。
R^2 = 97.73%の精度を達成した。
本研究は,木に基づく回帰が非正規分散マルチコリニアデータの機械学習モデルとして有望な理由を説明する。
関連論文リスト
- Adaptive Optimization for Prediction with Missing Data [6.800113478497425]
適応線形回帰モデルの中には,命令規則と下流線形回帰モデルを同時に学習するのと等価なものもある。
ランダムにデータの欠落が強くない環境では,本手法はサンプル外精度を2~10%向上させる。
論文 参考訳(メタデータ) (2024-02-02T16:35:51Z) - ZeroShape: Regression-based Zero-shot Shape Reconstruction [56.652766763775226]
単一画像ゼロショット3次元形状再構成の問題点について検討する。
最近の研究は、3Dアセットの生成的モデリングを通してゼロショット形状復元を学習している。
我々はZeroShapeが最先端の手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-12-21T01:56:34Z) - An Efficient Data Analysis Method for Big Data using Multiple-Model
Linear Regression [4.085654010023149]
本稿では,Multiple Model linear regression (MMLR) と呼ばれる新たに定義された回帰モデルを用いて,ビッグデータの新しいデータ解析手法を提案する。
提案手法は,他の回帰法よりも効率的かつ柔軟であることが示されている。
論文 参考訳(メタデータ) (2023-08-24T10:20:15Z) - Analysis of Interpolating Regression Models and the Double Descent
Phenomenon [3.883460584034765]
ノイズの多いトレーニングデータを補間するモデルは、一般化に乏しいと一般的に推測されている。
得られた最良のモデルは過度にパラメータ化され、テストエラーはモデル順序が増加するにつれて二重降下挙動を示す。
回帰行列の最小特異値の振舞いに基づいて、テスト誤差のピーク位置と二重降下形状をモデル順序の関数として説明する。
論文 参考訳(メタデータ) (2023-04-17T09:44:33Z) - Constructing Effective Machine Learning Models for the Sciences: A
Multidisciplinary Perspective [77.53142165205281]
線形回帰モデルに変数間の変換や相互作用を手動で追加することで、非線形解が必ずしも改善されないことを示す。
データ駆動モデルを構築する前にこれを認識する方法や、そのような分析が本質的に解釈可能な回帰モデルへの移行にどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2022-11-21T17:48:44Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Easy Differentially Private Linear Regression [16.325734286930764]
本研究では,指数関数機構を用いて,非プライベート回帰モデルの集合からタキー深度の高いモデルを選択するアルゴリズムについて検討する。
このアルゴリズムは、データリッチな設定において、強い経験的性能を得る。
論文 参考訳(メタデータ) (2022-08-15T17:42:27Z) - CurFi: An automated tool to find the best regression analysis model
using curve fitting [0.0]
線形回帰モデルを用いて曲線をデータセットに適合させる曲線フィッティングシステム「CurFi」を開発した。
このシステムはデータセットのアップロードを容易にし、データセットをトレーニングセットとテストセットに分割し、関連する機能とデータセットからのラベルを選択する。
論文 参考訳(メタデータ) (2022-05-16T16:52:10Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - A Hypergradient Approach to Robust Regression without Correspondence [85.49775273716503]
本稿では,入力データと出力データとの対応が不十分な回帰問題について考察する。
ほとんどの既存手法はサンプルサイズが小さい場合にのみ適用できる。
シャッフル回帰問題に対する新しい計算フレームワークであるROBOTを提案する。
論文 参考訳(メタデータ) (2020-11-30T21:47:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。