論文の概要: Pathological Regularization Regimes in Classification Tasks
- arxiv url: http://arxiv.org/abs/2406.14731v1
- Date: Thu, 20 Jun 2024 20:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 17:31:15.456133
- Title: Pathological Regularization Regimes in Classification Tasks
- Title(参考訳): 分類作業における病的正規化規則
- Authors: Maximilian Wiesmann, Paul Larsen,
- Abstract要約: 学習モデルから得られたデータセットと分類スコアの2値分類タスクにおける傾向逆転の可能性を示す。
この傾向の逆転は、モデルトレーニングの正規化パラメータの特定の選択、すなわち、パラメータが病理正規化規則(pathological regularization regime)と呼ばれるものに含まれる場合に起こる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper we demonstrate the possibility of a trend reversal in binary classification tasks between the dataset and a classification score obtained from a trained model. This trend reversal occurs for certain choices of the regularization parameter for model training, namely, if the parameter is contained in what we call the pathological regularization regime. For ridge regression, we give necessary and sufficient algebraic conditions on the dataset for the existence of a pathological regularization regime. Moreover, our results provide a data science practitioner with a hands-on tool to avoid hyperparameter choices suffering from trend reversal. We furthermore present numerical results on pathological regularization regimes for logistic regression. Finally, we draw connections to datasets exhibiting Simpson's paradox, providing a natural source of pathological datasets.
- Abstract(参考訳): 本稿では、データセットと学習モデルから得られた分類スコアの間の二項分類タスクにおける傾向逆転の可能性を示す。
この傾向逆転は、モデルトレーニングにおける正規化パラメータの特定の選択、すなわち、パラメータが病理正規化規則と呼ばれるものに含まれる場合に発生する。
隆起回帰のためには、病理正則化体制の存在のために、データセットに必要かつ十分な代数的条件を与える。
さらに,データサイエンスの実践者に対して,トレンド逆転に苦しむハイパーパラメータの選択を避けるためのハンズオンツールを提供する。
さらに、ロジスティック回帰のための病理正則化方式に関する数値的な結果を示す。
最後に、シンプソンのパラドックスを示すデータセットに接続し、病理的なデータセットの自然な情報源を提供する。
関連論文リスト
- Prevalidated ridge regression is a highly-efficient drop-in replacement
for logistic regression for high-dimensional data [7.532661545437305]
分類誤差やログロスの点から,ロジスティック回帰と一致する有意なリッジ回帰モデルを提案する。
モデルの係数をスケールし、予測値のセットのログロスを最小限に抑える。
これは、隆起回帰モデルに適合する過程で既に計算された量を利用して、名目追加の計算コストでスケーリングパラメータを見つける。
論文 参考訳(メタデータ) (2024-01-28T09:38:14Z) - Kalman Filter for Online Classification of Non-Stationary Data [101.26838049872651]
オンライン連続学習(OCL)では、学習システムはデータのストリームを受け取り、予測とトレーニングの手順を順次実行する。
本稿では,線形予測量に対するニューラル表現と状態空間モデルを用いた確率ベイズオンライン学習モデルを提案する。
多クラス分類の実験では、モデルの予測能力と非定常性を捉える柔軟性を示す。
論文 参考訳(メタデータ) (2023-06-14T11:41:42Z) - Continuous-Time Modeling of Counterfactual Outcomes Using Neural
Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。
既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。
そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文 参考訳(メタデータ) (2022-06-16T17:15:15Z) - Provable Guarantees for Sparsity Recovery with Deterministic Missing
Data Patterns [30.553697242038233]
観測されたデータセットが決定論的非一様フィルタによって検閲される場合を考える。
本稿では,検閲フィルタのトポロジ特性を利用して,効率的な値計算アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-10T06:14:45Z) - Modeling High-Dimensional Data with Unknown Cut Points: A Fusion
Penalized Logistic Threshold Regression [2.520538806201793]
従来のロジスティック回帰モデルでは、リンク関数は線形で連続であると見なされることが多い。
我々は、全ての連続した特徴が順序レベルに離散化され、さらにバイナリ応答が決定されるしきい値モデルを考える。
糖尿病のような慢性疾患の早期発見と予知の問題において,ラッソモデルが好適であることが判明した。
論文 参考訳(メタデータ) (2022-02-17T04:16:40Z) - Continuously Generalized Ordinal Regression for Linear and Deep Models [41.03778663275373]
正規回帰は、クラスが順序を持ち、予測エラーが予測されたクラスが真のクラスからさらに大きくなるような分類タスクである。
本稿では,クラス固有の超平面斜面をモデル化するための新しい手法を提案する。
本手法は,順序回帰ベンチマークデータセットの完全セットに対して,標準順序ロジスティックモデルよりも大幅に優れる。
論文 参考訳(メタデータ) (2022-02-14T19:49:05Z) - An Optimal Control Approach to Learning in SIDARTHE Epidemic model [67.22168759751541]
本研究では,疫病データから動的コンパートメンタルモデルの時間変化パラメータを学習するための一般的な手法を提案する。
我々はイタリアとフランスの疫病の進化を予報する。
論文 参考訳(メタデータ) (2020-10-28T10:58:59Z) - Two-step penalised logistic regression for multi-omic data with an
application to cardiometabolic syndrome [62.997667081978825]
我々は,各層で変数選択を行うマルチオミックロジスティック回帰に対する2段階のアプローチを実装した。
私たちのアプローチは、可能な限り多くの関連する予測子を選択することを目標とすべきです。
提案手法により,分子レベルでの心筋メタボリックシンドロームの特徴を同定することができる。
論文 参考訳(メタデータ) (2020-08-01T10:36:27Z) - Trajectories, bifurcations and pseudotime in large clinical datasets:
applications to myocardial infarction and diabetes data [94.37521840642141]
混合データ型と欠落値を特徴とする大規模臨床データセット分析のための半教師付き方法論を提案する。
この手法は、次元の減少、データの可視化、クラスタリング、特徴の選択と、部分的に順序付けられた観測列における測地距離(擬時)の定量化のタスクを同時に扱うことのできる弾性主グラフの適用に基づいている。
論文 参考訳(メタデータ) (2020-07-07T21:04:55Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Generalisation error in learning with random features and the hidden
manifold model [23.71637173968353]
合成データセットの一般線形回帰と分類について検討した。
我々は,高次元構造を考察し,統計物理学からのレプリカ法を用いる。
閾値をピークとしたロジスティック回帰のためのいわゆる二重降下挙動を得る方法を示す。
隠れ多様体モデルにより生成されたデータにおいて相関関係が果たす役割について論じる。
論文 参考訳(メタデータ) (2020-02-21T14:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。