論文の概要: Holistic Robust Data-Driven Decisions
- arxiv url: http://arxiv.org/abs/2207.09560v4
- Date: Sat, 01 Feb 2025 16:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:07:38.506194
- Title: Holistic Robust Data-Driven Decisions
- Title(参考訳): ホリスティックなロバストなデータ駆動決定
- Authors: Amine Bennouna, Bart Van Parys, Ryan Lucas,
- Abstract要約: 実際には、オーバーフィッティングは単一の原因ではなく、同時にいくつかの要因によって引き起こされる。
ここでは, (i) 統計的誤差を有限サンプルデータ処理の結果とする, (ii) データノイズ, (ii) データポイントが有限精度でのみ測定された場合に発生する, (iii) データのごく一部が完全に破損するデータ不特定性という,3つの過適合な情報源について考察する。
我々は、そのような全体的保護を保証し、計算可能な新しいデータ駆動型定式化を設計する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The design of data-driven formulations for machine learning and decision-making with good out-of-sample performance is a key challenge. The observation that good in-sample performance does not guarantee good out-of-sample performance is generally known as overfitting. Practical overfitting can typically not be attributed to a single cause but is caused by several factors simultaneously. We consider here three overfitting sources: (i) statistical error as a result of working with finite sample data, (ii) data noise, which occurs when the data points are measured only with finite precision, and finally, (iii) data misspecification in which a small fraction of all data may be wholly corrupted. Although existing data-driven formulations may be robust against one of these three sources in isolation, they do not provide holistic protection against all overfitting sources simultaneously. We design a novel data-driven formulation that guarantees such holistic protection and is computationally viable. Our distributionally robust optimization formulation can be interpreted as a novel combination of a Kullback-Leibler and L\'evy-Prokhorov robust optimization formulation. In the context of classification and regression problems, we show that several popular regularized and robust formulations naturally reduce to a particular case of our proposed novel formulation. Finally, we apply the proposed HR formulation to two real-life applications and study it alongside several benchmarks: (1) training neural networks on healthcare data, where we analyze various robustness and generalization properties in the presence of noise, labeling errors, and scarce data, (2) a portfolio selection problem with real stock data, and analyze the risk/return tradeoff under the natural severe distribution shift of the application.
- Abstract(参考訳): 機械学習と意思決定のためのデータ駆動型定式化の設計は、アウトオブサンプルのパフォーマンスがよいことが重要な課題である。
良いサンプル内パフォーマンスは、良いサンプル外パフォーマンスを保証しないという観察は、一般的にオーバーフィッティングとして知られている。
実際には、オーバーフィッティングは単一の原因ではなく、同時にいくつかの要因によって引き起こされる。
ここでは3つの過度な情報源について考察する。
(i)有限サンプルデータを用いた結果の統計的誤差
(ii)データポイントを有限精度で測定した場合に発生するデータノイズ、そして最後に
3 すべてのデータのごく一部が完全に破損する可能性のあるデータの不特定
既存のデータ駆動の定式化は、これらの3つのソースのうちの1つに対して独立して堅牢であるが、すべてのオーバーフィットソースに対して全体的保護を提供していない。
我々は、そのような全体的保護を保証し、計算可能な新しいデータ駆動型定式化を設計する。
分布的にロバストな最適化の定式化は、クルバック・リーブラとL''evy-Prokhorovのロバストな最適化の定式化の新たな組み合わせと解釈できる。
分類問題や回帰問題の文脈では、いくつかの人気正規化および頑健な定式化が、我々の提案した新規定式化の特定の事例に自然に還元されることが示されている。
最後に、提案したHR定式化を2つの実生活アプリケーションに適用し、(1)医療データ上でニューラルネットワークをトレーニングし、ノイズ、ラベル付けエラー、不足データの存在下で様々な堅牢性や一般化特性を解析し、(2)実際のストックデータによるポートフォリオ選択問題を分析し、そのアプリケーションの自然な分布シフトの下でリスク/リターントレードオフを分析する。
関連論文リスト
- A Conformal Approach to Feature-based Newsvendor under Model Misspecification [2.801095519296785]
共形予測にインスパイアされたモデルフリーで分散フリーなフレームワークを提案する。
ワシントンD.C.のCapital Bikeshareプログラムのシミュレーションデータと実世界のデータセットを用いて,我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2024-12-17T18:34:43Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - A Generative Deep Learning Approach for Crash Severity Modeling with Imbalanced Data [6.169163527464771]
本研究では,条件付きタブラリGANに基づくクラッシュデータ生成手法を提案する。
分類と解釈の性能を推定するために、クラッシュ重大度モデルを用いる。
以上の結果から,CTGAN-RUが生成した合成データを用いた衝突重大度モデリングは,他の再サンプリング法により生成された原データや合成データよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-04-02T16:07:27Z) - The Decaying Missing-at-Random Framework: Doubly Robust Causal Inference
with Partially Labeled Data [10.021381302215062]
現実のシナリオでは、データ収集の制限によって部分的にラベル付けされたデータセットが生成されることが多く、信頼性の高い因果推論の描画が困難になる。
半パラメトリック(SS)や欠落したデータ文学における従来のアプローチは、これらの複雑さを適切に扱えないため、偏りのある見積もりにつながる可能性がある。
このフレームワークは、高次元設定における欠落した結果に対処し、選択バイアスを考慮に入れます。
論文 参考訳(メタデータ) (2023-05-22T07:37:12Z) - Robust Direct Learning for Causal Data Fusion [14.462235940634969]
我々は、他のニュアンス関数から処理効果を分離するマルチソースデータを統合するためのフレームワークを提供する。
また,半パラメトリック効率理論の理論的洞察に基づく因果情報認識重み付け関数を提案する。
論文 参考訳(メタデータ) (2022-11-01T03:33:22Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Learning and Decision-Making with Data: Optimal Formulations and Phase
Transitions [0.0]
歴史的データのみを利用できる場合に最適学習と意思決定の定式化を設計する問題を考察する。
我々は3つの異なるアウト・オブ・サンプル・パフォーマンス・レジームの存在を示す。
論文 参考訳(メタデータ) (2021-09-14T18:20:15Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。