論文の概要: Holistic Robust Data-Driven Decisions
- arxiv url: http://arxiv.org/abs/2207.09560v1
- Date: Tue, 19 Jul 2022 21:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 12:49:38.766446
- Title: Holistic Robust Data-Driven Decisions
- Title(参考訳): 総合的ロバストなデータ駆動決定
- Authors: Amine Bennouna and Bart Van Parys
- Abstract要約: 実際にはオーバーフィッティングはひとつの原因ではなく、複数の要因を同時に引き起こすのが一般的である。
ここでは, (i) 有限サンプルデータを用いた結果の統計的誤差, (ii) データポイントを有限精度で測定した場合に発生するデータノイズ, (iii) データのごく一部が完全に破損する可能性のあるデータ不特定性という3つの過度な結果について考察する。
既存のデータ駆動型定式化は、これらの3つのソースのうちの1つに対して、独立して堅牢であるかもしれないが、すべてのオーバーフィットソースに対して、全体的な保護を提供していない、と我々は主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The design of data-driven formulations for machine learning and
decision-making with good out-of-sample performance is a key challenge. The
observation that good in-sample performance does not guarantee good
out-of-sample performance is generally known as overfitting. Practical
overfitting can typically not be attributed to a single cause but instead is
caused by several factors all at once. We consider here three overfitting
sources: (i) statistical error as a result of working with finite sample data,
(ii) data noise which occurs when the data points are measured only with finite
precision, and finally (iii) data misspecification in which a small fraction of
all data may be wholly corrupted. We argue that although existing data-driven
formulations may be robust against one of these three sources in isolation they
do not provide holistic protection against all overfitting sources
simultaneously. We design a novel data-driven formulation which does guarantee
such holistic protection and is furthermore computationally viable. Our
distributionally robust optimization formulation can be interpreted as a novel
combination of a Kullback-Leibler and Levy-Prokhorov robust optimization
formulation. Finally, we show how in the context of classification and
regression problems several popular regularized and robust formulations reduce
to a particular case of our proposed more general formulation.
- Abstract(参考訳): 機械学習と意思決定のためのデータ駆動型定式化の設計は、アウトオブサンプルのパフォーマンスがよい。
良いサンプル内性能が良いサンプル外性能を保証しないという観察は、一般にオーバーフィッティングとして知られている。
実際にはオーバーフィッティングはひとつの原因ではなく、複数の要因を同時に引き起こすのが一般的である。
オーバーフィットする情報源は3つあります
(i)有限サンプルデータを用いた結果の統計的誤差
(ii)データポイントが有限の精度で測定され、最終的に発生するデータノイズ
(iii)すべてのデータのごく一部が完全に破損する可能性のあるデータの誤特定
我々は、既存のデータ駆動定式化がこれら3つのソースのうちの1つに対して独立して堅牢であるとしても、すべてのオーバーフィッティングソースに対する全体的保護は同時には提供しないと主張している。
このような包括的保護を保証する新しいデータ駆動型定式化を設計し、さらに計算可能とする。
分布的にロバストな最適化定式化は、kullback-leiblerとlevy-prokhorovロバスト最適化定式化の新しい組み合わせとして解釈することができる。
最後に, 分類問題や回帰問題において, 一般的な定式化やロバストな定式化が, 提案するより一般的な定式化の特定の場合にどのように還元されるかを示す。
関連論文リスト
- A Conformal Approach to Feature-based Newsvendor under Model Misspecification [2.801095519296785]
共形予測にインスパイアされたモデルフリーで分散フリーなフレームワークを提案する。
ワシントンD.C.のCapital Bikeshareプログラムのシミュレーションデータと実世界のデータセットを用いて,我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2024-12-17T18:34:43Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - A Generative Deep Learning Approach for Crash Severity Modeling with Imbalanced Data [6.169163527464771]
本研究では,条件付きタブラリGANに基づくクラッシュデータ生成手法を提案する。
分類と解釈の性能を推定するために、クラッシュ重大度モデルを用いる。
以上の結果から,CTGAN-RUが生成した合成データを用いた衝突重大度モデリングは,他の再サンプリング法により生成された原データや合成データよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-04-02T16:07:27Z) - The Decaying Missing-at-Random Framework: Doubly Robust Causal Inference
with Partially Labeled Data [10.021381302215062]
現実のシナリオでは、データ収集の制限によって部分的にラベル付けされたデータセットが生成されることが多く、信頼性の高い因果推論の描画が困難になる。
半パラメトリック(SS)や欠落したデータ文学における従来のアプローチは、これらの複雑さを適切に扱えないため、偏りのある見積もりにつながる可能性がある。
このフレームワークは、高次元設定における欠落した結果に対処し、選択バイアスを考慮に入れます。
論文 参考訳(メタデータ) (2023-05-22T07:37:12Z) - Robust Direct Learning for Causal Data Fusion [14.462235940634969]
我々は、他のニュアンス関数から処理効果を分離するマルチソースデータを統合するためのフレームワークを提供する。
また,半パラメトリック効率理論の理論的洞察に基づく因果情報認識重み付け関数を提案する。
論文 参考訳(メタデータ) (2022-11-01T03:33:22Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Learning and Decision-Making with Data: Optimal Formulations and Phase
Transitions [0.0]
歴史的データのみを利用できる場合に最適学習と意思決定の定式化を設計する問題を考察する。
我々は3つの異なるアウト・オブ・サンプル・パフォーマンス・レジームの存在を示す。
論文 参考訳(メタデータ) (2021-09-14T18:20:15Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。