論文の概要: Statistical Agnostic Regression: a machine learning method to validate regression models
- arxiv url: http://arxiv.org/abs/2402.15213v3
- Date: Sat, 09 Nov 2024 09:49:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:04:49.983983
- Title: Statistical Agnostic Regression: a machine learning method to validate regression models
- Title(参考訳): 統計的非依存回帰:回帰モデルを検証する機械学習手法
- Authors: Juan M Gorriz, J. Ramirez, F. Segovia, F. J. Martinez-Murcia, C. Jiménez-Mesa, J. Suckling,
- Abstract要約: 本稿では,機械学習に基づく線形回帰モデルの統計的意義を評価するために,統計的回帰(Agnostic Regression, SAR)を導入する。
我々は、説明的(機能)変数と反応(ラベル)変数の間の集団における線形関係の存在を結論付けるために、少なくとも1-eta$の確率で十分な証拠が存在することを保証するしきい値を定義する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Regression analysis is a central topic in statistical modeling, aimed at estimating the relationships between a dependent variable, commonly referred to as the response variable, and one or more independent variables, i.e., explanatory variables. Linear regression is by far the most popular method for performing this task in various fields of research, such as data integration and predictive modeling when combining information from multiple sources. Classical methods for solving linear regression problems, such as Ordinary Least Squares (OLS), Ridge, or Lasso regressions, often form the foundation for more advanced machine learning (ML) techniques, which have been successfully applied, though without a formal definition of statistical significance. At most, permutation or analyses based on empirical measures (e.g., residuals or accuracy) have been conducted, leveraging the greater sensitivity of ML estimations for detection. In this paper, we introduce Statistical Agnostic Regression (SAR) for evaluating the statistical significance of ML-based linear regression models. This is achieved by analyzing concentration inequalities of the actual risk (expected loss) and considering the worst-case scenario. To this end, we define a threshold that ensures there is sufficient evidence, with a probability of at least $1-\eta$, to conclude the existence of a linear relationship in the population between the explanatory (feature) and the response (label) variables. Simulations demonstrate the ability of the proposed agnostic (non-parametric) test to provide an analysis of variance similar to the classical multivariate $F$-test for the slope parameter, without relying on the underlying assumptions of classical methods. Moreover, the residuals computed from this method represent a trade-off between those obtained from ML approaches and the classical OLS.
- Abstract(参考訳): 回帰分析は統計モデリングにおける中心的なトピックであり、従属変数(一般に応答変数と呼ばれる)と1つ以上の独立変数、すなわち説明変数の関係を推定することを目的としている。
線形回帰は、複数の情報源からの情報を組み合わせる際に、データ統合や予測モデリングなど、様々な分野の研究において、このタスクを実行するための最も一般的な方法である。
通常の最小広場(OLS)、リッジ(英語版)、ラッソ回帰(英語版)のような線形回帰問題の古典的解法は、統計学的意義の形式的定義が無くとも、しばしばより高度な機械学習(ML)技術の基盤を形成する。
多くの場合、ML推定の感度を高めて、経験的測定(例、残差、精度)に基づく置換や解析が実施されている。
本稿では,MLに基づく線形回帰モデルの統計的意義を評価するために,統計的回帰(Agnostic Regression, SAR)を提案する。
これは、実際のリスク(予測損失)の集中不平等を分析し、最悪のシナリオを考慮することで達成される。
この目的のために、説明変数 (feature) と反応変数 (label) の間の集団における線形関係の存在を結論付けるために、少なくとも1-\eta$の確率で十分な証拠が存在することを保証するしきい値を定義する。
シミュレーションは、古典的手法の基本的な前提に頼らずに、勾配パラメータの古典的多変量$F$-testに類似した分散分析を提供するための、提案された非非パラメトリックテスト(英語版)の能力を実証する。
さらに、この手法から計算した残差は、MLアプローチから得られた残差と古典的なOLSとのトレードオフを表す。
関連論文リスト
- A Novel Approach in Solving Stochastic Generalized Linear Regression via
Nonconvex Programming [1.6874375111244329]
本稿では,一般化線形回帰モデルについて,確率制約問題として考察する。
提案アルゴリズムの結果は,通常のロジスティック回帰モデルよりも1~2%以上よい結果を得た。
論文 参考訳(メタデータ) (2024-01-16T16:45:51Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Errors-in-variables Fr\'echet Regression with Low-rank Covariate
Approximation [2.1756081703276]
Fr'echet回帰は、非ユークリッド応答変数を含む回帰分析のための有望なアプローチとして登場した。
提案手法は,大域的Fr'echet回帰と主成分回帰の概念を組み合わせて,回帰推定器の効率と精度を向上させることを目的とする。
論文 参考訳(メタデータ) (2023-05-16T08:37:54Z) - Are Latent Factor Regression and Sparse Regression Adequate? [0.49416305961918056]
準ガウス雑音と重み付き雑音の存在下でのモデル推定に関する理論的保証を提供する。
本稿ではFacter-Adjusted de-Biased Test (FabTest) と2段階のANOVA型テストを提案する。
数値計算の結果,潜在因子回帰モデルと疎線形回帰モデルに対するモデルの有効性と有効性を示した。
論文 参考訳(メタデータ) (2022-03-02T16:22:23Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z) - Variable selection with missing data in both covariates and outcomes:
Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。
機械学習はパラメトリックな仮定を弱める。
XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-04-06T20:18:29Z) - Learning Probabilistic Ordinal Embeddings for Uncertainty-Aware
Regression [91.3373131262391]
不確かさが唯一の確実性である。
伝統的に、直接回帰定式化を考慮し、ある確率分布の族に出力空間を変更することによって不確実性をモデル化する。
現在のレグレッション技術における不確実性をモデル化する方法は、未解決の問題である。
論文 参考訳(メタデータ) (2021-03-25T06:56:09Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - Two-step penalised logistic regression for multi-omic data with an
application to cardiometabolic syndrome [62.997667081978825]
我々は,各層で変数選択を行うマルチオミックロジスティック回帰に対する2段階のアプローチを実装した。
私たちのアプローチは、可能な限り多くの関連する予測子を選択することを目標とすべきです。
提案手法により,分子レベルでの心筋メタボリックシンドロームの特徴を同定することができる。
論文 参考訳(メタデータ) (2020-08-01T10:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。