論文の概要: Holistic Robust Data-Driven Decisions
- arxiv url: http://arxiv.org/abs/2207.09560v1
- Date: Tue, 19 Jul 2022 21:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 12:49:38.766446
- Title: Holistic Robust Data-Driven Decisions
- Title(参考訳): 総合的ロバストなデータ駆動決定
- Authors: Amine Bennouna and Bart Van Parys
- Abstract要約: 実際にはオーバーフィッティングはひとつの原因ではなく、複数の要因を同時に引き起こすのが一般的である。
ここでは, (i) 有限サンプルデータを用いた結果の統計的誤差, (ii) データポイントを有限精度で測定した場合に発生するデータノイズ, (iii) データのごく一部が完全に破損する可能性のあるデータ不特定性という3つの過度な結果について考察する。
既存のデータ駆動型定式化は、これらの3つのソースのうちの1つに対して、独立して堅牢であるかもしれないが、すべてのオーバーフィットソースに対して、全体的な保護を提供していない、と我々は主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The design of data-driven formulations for machine learning and
decision-making with good out-of-sample performance is a key challenge. The
observation that good in-sample performance does not guarantee good
out-of-sample performance is generally known as overfitting. Practical
overfitting can typically not be attributed to a single cause but instead is
caused by several factors all at once. We consider here three overfitting
sources: (i) statistical error as a result of working with finite sample data,
(ii) data noise which occurs when the data points are measured only with finite
precision, and finally (iii) data misspecification in which a small fraction of
all data may be wholly corrupted. We argue that although existing data-driven
formulations may be robust against one of these three sources in isolation they
do not provide holistic protection against all overfitting sources
simultaneously. We design a novel data-driven formulation which does guarantee
such holistic protection and is furthermore computationally viable. Our
distributionally robust optimization formulation can be interpreted as a novel
combination of a Kullback-Leibler and Levy-Prokhorov robust optimization
formulation. Finally, we show how in the context of classification and
regression problems several popular regularized and robust formulations reduce
to a particular case of our proposed more general formulation.
- Abstract(参考訳): 機械学習と意思決定のためのデータ駆動型定式化の設計は、アウトオブサンプルのパフォーマンスがよい。
良いサンプル内性能が良いサンプル外性能を保証しないという観察は、一般にオーバーフィッティングとして知られている。
実際にはオーバーフィッティングはひとつの原因ではなく、複数の要因を同時に引き起こすのが一般的である。
オーバーフィットする情報源は3つあります
(i)有限サンプルデータを用いた結果の統計的誤差
(ii)データポイントが有限の精度で測定され、最終的に発生するデータノイズ
(iii)すべてのデータのごく一部が完全に破損する可能性のあるデータの誤特定
我々は、既存のデータ駆動定式化がこれら3つのソースのうちの1つに対して独立して堅牢であるとしても、すべてのオーバーフィッティングソースに対する全体的保護は同時には提供しないと主張している。
このような包括的保護を保証する新しいデータ駆動型定式化を設計し、さらに計算可能とする。
分布的にロバストな最適化定式化は、kullback-leiblerとlevy-prokhorovロバスト最適化定式化の新しい組み合わせとして解釈することができる。
最後に, 分類問題や回帰問題において, 一般的な定式化やロバストな定式化が, 提案するより一般的な定式化の特定の場合にどのように還元されるかを示す。
関連論文リスト
- Self-Supervised Dataset Distillation for Transfer Learning [82.09002658558529]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Non-Exchangeable Conformal Risk Control [12.381447108228635]
分割共形予測は、公式に保証された不確実性セットや間隔を提供する能力によって、最近大きな関心を集めている。
本研究では,データ交換不能時のモノトーン損失関数の期待値を制御できる非交換型共形リスク制御を提案する。
私たちのフレームワークはフレキシブルで、仮定はごくわずかで、所定のテスト例に対する関連性に基づいてデータを重み付けできます。
論文 参考訳(メタデータ) (2023-10-02T15:00:19Z) - The Decaying Missing-at-Random Framework: Doubly Robust Causal Inference
with Partially Labeled Data [10.021381302215062]
現実のシナリオでは、データ収集の制限によって部分的にラベル付けされたデータセットが生成されることが多く、信頼性の高い因果推論の描画が困難になる。
半パラメトリック(SS)や欠落したデータ文学における従来のアプローチは、これらの複雑さを適切に扱えないため、偏りのある見積もりにつながる可能性がある。
このフレームワークは、高次元設定における欠落した結果に対処し、選択バイアスを考慮に入れます。
論文 参考訳(メタデータ) (2023-05-22T07:37:12Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - RIGID: Robust Linear Regression with Missing Data [7.638042073679073]
機能に欠落したエントリで線形回帰を行うための堅牢なフレームワークを提案する。
本稿では,変数間の依存性を自然に考慮した定式化が,凸プログラムに還元されることを示す。
詳細な分析に加えて,提案するフレームワークの挙動を分析し,技術的議論を行う。
論文 参考訳(メタデータ) (2022-05-26T21:10:17Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Differential privacy and robust statistics in high dimensions [49.50869296871643]
高次元Propose-Test-Release (HPTR) は指数的メカニズム、頑健な統計、Propose-Test-Release メカニズムという3つの重要なコンポーネントの上に構築されている。
本論文では,HPTRが複数のシナリオで最適サンプル複雑性をほぼ達成していることを示す。
論文 参考訳(メタデータ) (2021-11-12T06:36:40Z) - Learning and Decision-Making with Data: Optimal Formulations and Phase
Transitions [0.0]
歴史的データのみを利用できる場合に最適学習と意思決定の定式化を設計する問題を考察する。
我々は3つの異なるアウト・オブ・サンプル・パフォーマンス・レジームの存在を示す。
論文 参考訳(メタデータ) (2021-09-14T18:20:15Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Robust Bayesian Inference for Discrete Outcomes with the Total Variation
Distance [5.139874302398955]
離散的に評価された結果のモデルは、データがゼロインフレーション、過分散または汚染を示す場合、容易に誤特定される。
ここでは、Ttal Variation Distance (TVD) を用いた頑健な相違に基づくベイズ的アプローチを提案する。
我々は、我々のアプローチが堅牢で、シミュレーションおよび実世界のデータの範囲で予測性能を著しく改善していることを実証的に実証した。
論文 参考訳(メタデータ) (2020-10-26T09:53:06Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。