論文の概要: Statistical Agnostic Regression: a machine learning method to validate regression models
- arxiv url: http://arxiv.org/abs/2402.15213v3
- Date: Sat, 09 Nov 2024 09:49:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:04:49.983983
- Title: Statistical Agnostic Regression: a machine learning method to validate regression models
- Title(参考訳): 統計的非依存回帰:回帰モデルを検証する機械学習手法
- Authors: Juan M Gorriz, J. Ramirez, F. Segovia, F. J. Martinez-Murcia, C. Jiménez-Mesa, J. Suckling,
- Abstract要約: 本稿では,機械学習に基づく線形回帰モデルの統計的意義を評価するために,統計的回帰(Agnostic Regression, SAR)を導入する。
我々は、説明的(機能)変数と反応(ラベル)変数の間の集団における線形関係の存在を結論付けるために、少なくとも1-eta$の確率で十分な証拠が存在することを保証するしきい値を定義する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Regression analysis is a central topic in statistical modeling, aimed at estimating the relationships between a dependent variable, commonly referred to as the response variable, and one or more independent variables, i.e., explanatory variables. Linear regression is by far the most popular method for performing this task in various fields of research, such as data integration and predictive modeling when combining information from multiple sources. Classical methods for solving linear regression problems, such as Ordinary Least Squares (OLS), Ridge, or Lasso regressions, often form the foundation for more advanced machine learning (ML) techniques, which have been successfully applied, though without a formal definition of statistical significance. At most, permutation or analyses based on empirical measures (e.g., residuals or accuracy) have been conducted, leveraging the greater sensitivity of ML estimations for detection. In this paper, we introduce Statistical Agnostic Regression (SAR) for evaluating the statistical significance of ML-based linear regression models. This is achieved by analyzing concentration inequalities of the actual risk (expected loss) and considering the worst-case scenario. To this end, we define a threshold that ensures there is sufficient evidence, with a probability of at least $1-\eta$, to conclude the existence of a linear relationship in the population between the explanatory (feature) and the response (label) variables. Simulations demonstrate the ability of the proposed agnostic (non-parametric) test to provide an analysis of variance similar to the classical multivariate $F$-test for the slope parameter, without relying on the underlying assumptions of classical methods. Moreover, the residuals computed from this method represent a trade-off between those obtained from ML approaches and the classical OLS.
- Abstract(参考訳): 回帰分析は統計モデリングにおける中心的なトピックであり、従属変数(一般に応答変数と呼ばれる)と1つ以上の独立変数、すなわち説明変数の関係を推定することを目的としている。
線形回帰は、複数の情報源からの情報を組み合わせる際に、データ統合や予測モデリングなど、様々な分野の研究において、このタスクを実行するための最も一般的な方法である。
通常の最小広場(OLS)、リッジ(英語版)、ラッソ回帰(英語版)のような線形回帰問題の古典的解法は、統計学的意義の形式的定義が無くとも、しばしばより高度な機械学習(ML)技術の基盤を形成する。
多くの場合、ML推定の感度を高めて、経験的測定(例、残差、精度)に基づく置換や解析が実施されている。
本稿では,MLに基づく線形回帰モデルの統計的意義を評価するために,統計的回帰(Agnostic Regression, SAR)を提案する。
これは、実際のリスク(予測損失)の集中不平等を分析し、最悪のシナリオを考慮することで達成される。
この目的のために、説明変数 (feature) と反応変数 (label) の間の集団における線形関係の存在を結論付けるために、少なくとも1-\eta$の確率で十分な証拠が存在することを保証するしきい値を定義する。
シミュレーションは、古典的手法の基本的な前提に頼らずに、勾配パラメータの古典的多変量$F$-testに類似した分散分析を提供するための、提案された非非パラメトリックテスト(英語版)の能力を実証する。
さらに、この手法から計算した残差は、MLアプローチから得られた残差と古典的なOLSとのトレードオフを表す。
関連論文リスト
- Beyond the Norms: Detecting Prediction Errors in Regression Models [26.178065248948773]
本稿では,回帰アルゴリズムにおける信頼できない振る舞いを検出するという課題に取り組む。
回帰器の出力が特定の不一致(または誤り)を超えた場合、回帰における不確実性の概念を導入する。
複数の回帰タスクに対する誤り検出の実証的改善を示す。
論文 参考訳(メタデータ) (2024-06-11T05:51:44Z) - A Novel Approach in Solving Stochastic Generalized Linear Regression via
Nonconvex Programming [1.6874375111244329]
本稿では,一般化線形回帰モデルについて,確率制約問題として考察する。
提案アルゴリズムの結果は,通常のロジスティック回帰モデルよりも1~2%以上よい結果を得た。
論文 参考訳(メタデータ) (2024-01-16T16:45:51Z) - Conformal inference for regression on Riemannian Manifolds [49.7719149179179]
回帰シナリオの予測セットは、応答変数が$Y$で、多様体に存在し、Xで表される共変数がユークリッド空間にあるときに検討する。
我々は、多様体上のこれらの領域の経験的バージョンが、その集団に対するほぼ確実に収束していることを証明する。
論文 参考訳(メタデータ) (2023-10-12T10:56:25Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Vector-Valued Least-Squares Regression under Output Regularity
Assumptions [73.99064151691597]
最小二乗回帰問題を無限次元出力で解くために,還元ランク法を提案し,解析する。
提案手法の学習バウンダリを導出し、フルランク手法と比較して統計的性能の設定を改善する研究を行う。
論文 参考訳(メタデータ) (2022-11-16T15:07:00Z) - An interpretable prediction model for longitudinal dispersion
coefficient in natural streams based on evolutionary symbolic regression
network [30.99493442296212]
縦分散係数(LDC)の予測には様々な方法が提案されている。
本稿では,まずこれらの手法の詳細な解析を行い,その欠陥を明らかにする。
次に、進化的記号回帰ネットワーク(ESRN)と呼ばれる新しい記号回帰法を設計する。
論文 参考訳(メタデータ) (2021-06-17T07:06:05Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - A connection between the pattern classification problem and the General
Linear Model for statistical inference [0.2320417845168326]
両方のアプローチ、すなわち。
GLM および LRM は、異なったドメイン、観察およびラベル ドメインに適用します。
より洗練された予測アルゴリズムに基づく統計的検査を導出する。
MLEベースの推論は、残留スコアを採用し、実際の(実際の)エラーのより良い推定を計算するために上界を含む。
論文 参考訳(メタデータ) (2020-12-16T12:26:26Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。