論文の概要: Statistical Agnostic Regression: a machine learning method to validate regression models
- arxiv url: http://arxiv.org/abs/2402.15213v2
- Date: Fri, 22 Mar 2024 07:26:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 22:01:03.122678
- Title: Statistical Agnostic Regression: a machine learning method to validate regression models
- Title(参考訳): 統計的非依存回帰:回帰モデルを検証する機械学習手法
- Authors: Juan M Gorriz, J. Ramirez, F. Segovia, F. J. Martinez-Murcia, C. Jiménez-Mesa, J. Suckling,
- Abstract要約: 本稿では,MLに基づく線形回帰の統計的意義を評価する手法として,統計的回帰(Agnostic Regression, SAR)を提案する。
我々は、説明的(機能)変数と反応(ラベル)変数の間の集団に線形関係があることを結論付けるために、少なくとも1-etaの確率で十分な証拠が存在することを示すしきい値を定義する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Regression analysis is a central topic in statistical modeling, aiming to estimate the relationships between a dependent variable, commonly referred to as the response variable, and one or more independent variables, i.e., explanatory variables. Linear regression is by far the most popular method for performing this task in several fields of research, such as prediction, forecasting, or causal inference. Beyond various classical methods to solve linear regression problems, such as Ordinary Least Squares, Ridge, or Lasso regressions - which are often the foundation for more advanced machine learning (ML) techniques - the latter have been successfully applied in this scenario without a formal definition of statistical significance. At most, permutation or classical analyses based on empirical measures (e.g., residuals or accuracy) have been conducted to reflect the greater ability of ML estimations for detection. In this paper, we introduce a method, named Statistical Agnostic Regression (SAR), for evaluating the statistical significance of an ML-based linear regression based on concentration inequalities of the actual risk using the analysis of the worst case. To achieve this goal, similar to the classification problem, we define a threshold to establish that there is sufficient evidence with a probability of at least 1-eta to conclude that there is a linear relationship in the population between the explanatory (feature) and the response (label) variables. Simulations in only two dimensions demonstrate the ability of the proposed agnostic test to provide a similar analysis of variance given by the classical $F$ test for the slope parameter.
- Abstract(参考訳): 回帰分析は統計モデルにおいて中心的なトピックであり、従属変数(一般に応答変数と呼ばれる)と1つ以上の独立変数、すなわち説明変数の間の関係を推定することを目的としている。
線形回帰は、予測、予測、因果推論など、いくつかの分野の研究において、このタスクを実行する最も一般的な方法である。
通常のリースト・スクエア、リッジ、ラッソ・レグレッションといった、より高度な機械学習(ML)技術の基礎となる、線形回帰問題を解決する様々な古典的な方法の他に、後者は統計的重要性の正式な定義なしにこのシナリオでうまく適用されている。
多くの場合、ML推定による検出能力の向上を反映するために、経験的尺度(例:残差、精度)に基づく置換や古典的分析が実施されている。
本稿では,統計的回帰(Agnostic Regression, SAR)と呼ばれる手法を紹介し, 最悪のケースの分析を用いて, 実際のリスクの濃度不等式に基づいて, MLに基づく線形回帰の統計的意義を評価する。
この目的を達成するために、分類問題と同様に、少なくとも1-etaの確率で十分な証拠が存在することを証明するためのしきい値を定義し、説明的(機能)変数と反応(ラベル)変数の間には、集団に線形な関係があることを結論付ける。
2次元のみのシミュレーションでは、勾配パラメータに対する古典的な$F$テストによって与えられる分散の同様の分析を提供するために提案された非依存テストの能力を実証している。
関連論文リスト
- A Novel Approach in Solving Stochastic Generalized Linear Regression via
Nonconvex Programming [1.6874375111244329]
本稿では,一般化線形回帰モデルについて,確率制約問題として考察する。
提案アルゴリズムの結果は,通常のロジスティック回帰モデルよりも1~2%以上よい結果を得た。
論文 参考訳(メタデータ) (2024-01-16T16:45:51Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Errors-in-variables Fr\'echet Regression with Low-rank Covariate
Approximation [2.1756081703276]
Fr'echet回帰は、非ユークリッド応答変数を含む回帰分析のための有望なアプローチとして登場した。
提案手法は,大域的Fr'echet回帰と主成分回帰の概念を組み合わせて,回帰推定器の効率と精度を向上させることを目的とする。
論文 参考訳(メタデータ) (2023-05-16T08:37:54Z) - Are Latent Factor Regression and Sparse Regression Adequate? [0.49416305961918056]
準ガウス雑音と重み付き雑音の存在下でのモデル推定に関する理論的保証を提供する。
本稿ではFacter-Adjusted de-Biased Test (FabTest) と2段階のANOVA型テストを提案する。
数値計算の結果,潜在因子回帰モデルと疎線形回帰モデルに対するモデルの有効性と有効性を示した。
論文 参考訳(メタデータ) (2022-03-02T16:22:23Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z) - Variable selection with missing data in both covariates and outcomes:
Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。
機械学習はパラメトリックな仮定を弱める。
XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-04-06T20:18:29Z) - Learning Probabilistic Ordinal Embeddings for Uncertainty-Aware
Regression [91.3373131262391]
不確かさが唯一の確実性である。
伝統的に、直接回帰定式化を考慮し、ある確率分布の族に出力空間を変更することによって不確実性をモデル化する。
現在のレグレッション技術における不確実性をモデル化する方法は、未解決の問題である。
論文 参考訳(メタデータ) (2021-03-25T06:56:09Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - Two-step penalised logistic regression for multi-omic data with an
application to cardiometabolic syndrome [62.997667081978825]
我々は,各層で変数選択を行うマルチオミックロジスティック回帰に対する2段階のアプローチを実装した。
私たちのアプローチは、可能な限り多くの関連する予測子を選択することを目標とすべきです。
提案手法により,分子レベルでの心筋メタボリックシンドロームの特徴を同定することができる。
論文 参考訳(メタデータ) (2020-08-01T10:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。