論文の概要: Statistical Agnostic Regression: a machine learning method to validate regression models
- arxiv url: http://arxiv.org/abs/2402.15213v2
- Date: Fri, 22 Mar 2024 07:26:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 22:01:03.122678
- Title: Statistical Agnostic Regression: a machine learning method to validate regression models
- Title(参考訳): 統計的非依存回帰:回帰モデルを検証する機械学習手法
- Authors: Juan M Gorriz, J. Ramirez, F. Segovia, F. J. Martinez-Murcia, C. Jiménez-Mesa, J. Suckling,
- Abstract要約: 本稿では,MLに基づく線形回帰の統計的意義を評価する手法として,統計的回帰(Agnostic Regression, SAR)を提案する。
我々は、説明的(機能)変数と反応(ラベル)変数の間の集団に線形関係があることを結論付けるために、少なくとも1-etaの確率で十分な証拠が存在することを示すしきい値を定義する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Regression analysis is a central topic in statistical modeling, aiming to estimate the relationships between a dependent variable, commonly referred to as the response variable, and one or more independent variables, i.e., explanatory variables. Linear regression is by far the most popular method for performing this task in several fields of research, such as prediction, forecasting, or causal inference. Beyond various classical methods to solve linear regression problems, such as Ordinary Least Squares, Ridge, or Lasso regressions - which are often the foundation for more advanced machine learning (ML) techniques - the latter have been successfully applied in this scenario without a formal definition of statistical significance. At most, permutation or classical analyses based on empirical measures (e.g., residuals or accuracy) have been conducted to reflect the greater ability of ML estimations for detection. In this paper, we introduce a method, named Statistical Agnostic Regression (SAR), for evaluating the statistical significance of an ML-based linear regression based on concentration inequalities of the actual risk using the analysis of the worst case. To achieve this goal, similar to the classification problem, we define a threshold to establish that there is sufficient evidence with a probability of at least 1-eta to conclude that there is a linear relationship in the population between the explanatory (feature) and the response (label) variables. Simulations in only two dimensions demonstrate the ability of the proposed agnostic test to provide a similar analysis of variance given by the classical $F$ test for the slope parameter.
- Abstract(参考訳): 回帰分析は統計モデルにおいて中心的なトピックであり、従属変数(一般に応答変数と呼ばれる)と1つ以上の独立変数、すなわち説明変数の間の関係を推定することを目的としている。
線形回帰は、予測、予測、因果推論など、いくつかの分野の研究において、このタスクを実行する最も一般的な方法である。
通常のリースト・スクエア、リッジ、ラッソ・レグレッションといった、より高度な機械学習(ML)技術の基礎となる、線形回帰問題を解決する様々な古典的な方法の他に、後者は統計的重要性の正式な定義なしにこのシナリオでうまく適用されている。
多くの場合、ML推定による検出能力の向上を反映するために、経験的尺度(例:残差、精度)に基づく置換や古典的分析が実施されている。
本稿では,統計的回帰(Agnostic Regression, SAR)と呼ばれる手法を紹介し, 最悪のケースの分析を用いて, 実際のリスクの濃度不等式に基づいて, MLに基づく線形回帰の統計的意義を評価する。
この目的を達成するために、分類問題と同様に、少なくとも1-etaの確率で十分な証拠が存在することを証明するためのしきい値を定義し、説明的(機能)変数と反応(ラベル)変数の間には、集団に線形な関係があることを結論付ける。
2次元のみのシミュレーションでは、勾配パラメータに対する古典的な$F$テストによって与えられる分散の同様の分析を提供するために提案された非依存テストの能力を実証している。
関連論文リスト
- Beyond the Norms: Detecting Prediction Errors in Regression Models [26.178065248948773]
本稿では,回帰アルゴリズムにおける信頼できない振る舞いを検出するという課題に取り組む。
回帰器の出力が特定の不一致(または誤り)を超えた場合、回帰における不確実性の概念を導入する。
複数の回帰タスクに対する誤り検出の実証的改善を示す。
論文 参考訳(メタデータ) (2024-06-11T05:51:44Z) - A Novel Approach in Solving Stochastic Generalized Linear Regression via
Nonconvex Programming [1.6874375111244329]
本稿では,一般化線形回帰モデルについて,確率制約問題として考察する。
提案アルゴリズムの結果は,通常のロジスティック回帰モデルよりも1~2%以上よい結果を得た。
論文 参考訳(メタデータ) (2024-01-16T16:45:51Z) - Conformal inference for regression on Riemannian Manifolds [49.7719149179179]
回帰シナリオの予測セットは、応答変数が$Y$で、多様体に存在し、Xで表される共変数がユークリッド空間にあるときに検討する。
我々は、多様体上のこれらの領域の経験的バージョンが、その集団に対するほぼ確実に収束していることを証明する。
論文 参考訳(メタデータ) (2023-10-12T10:56:25Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Vector-Valued Least-Squares Regression under Output Regularity
Assumptions [73.99064151691597]
最小二乗回帰問題を無限次元出力で解くために,還元ランク法を提案し,解析する。
提案手法の学習バウンダリを導出し、フルランク手法と比較して統計的性能の設定を改善する研究を行う。
論文 参考訳(メタデータ) (2022-11-16T15:07:00Z) - An interpretable prediction model for longitudinal dispersion
coefficient in natural streams based on evolutionary symbolic regression
network [30.99493442296212]
縦分散係数(LDC)の予測には様々な方法が提案されている。
本稿では,まずこれらの手法の詳細な解析を行い,その欠陥を明らかにする。
次に、進化的記号回帰ネットワーク(ESRN)と呼ばれる新しい記号回帰法を設計する。
論文 参考訳(メタデータ) (2021-06-17T07:06:05Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - A connection between the pattern classification problem and the General
Linear Model for statistical inference [0.2320417845168326]
両方のアプローチ、すなわち。
GLM および LRM は、異なったドメイン、観察およびラベル ドメインに適用します。
より洗練された予測アルゴリズムに基づく統計的検査を導出する。
MLEベースの推論は、残留スコアを採用し、実際の(実際の)エラーのより良い推定を計算するために上界を含む。
論文 参考訳(メタデータ) (2020-12-16T12:26:26Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。