論文の概要: Holistic Robust Data-Driven Decisions
- arxiv url: http://arxiv.org/abs/2207.09560v3
- Date: Wed, 16 Aug 2023 22:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 20:13:54.754092
- Title: Holistic Robust Data-Driven Decisions
- Title(参考訳): 総合的ロバストなデータ駆動決定
- Authors: Amine Bennouna and Bart Van Parys
- Abstract要約: 実際にはオーバーフィッティングはひとつの原因ではなく、複数の要因を同時に引き起こすのが一般的である。
ここでは, (i) 有限サンプルデータを用いた結果の統計的誤差, (ii) データポイントを有限精度で測定した場合に発生するデータノイズ, (iii) データのごく一部が完全に破損する可能性のあるデータ不特定性という3つの過度な結果について考察する。
既存のデータ駆動型定式化は、これらの3つのソースのうちの1つに対して、独立して堅牢であるかもしれないが、すべてのオーバーフィットソースに対して、全体的な保護を提供していない、と我々は主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The design of data-driven formulations for machine learning and
decision-making with good out-of-sample performance is a key challenge. The
observation that good in-sample performance does not guarantee good
out-of-sample performance is generally known as overfitting. Practical
overfitting can typically not be attributed to a single cause but instead is
caused by several factors all at once. We consider here three overfitting
sources: (i) statistical error as a result of working with finite sample data,
(ii) data noise which occurs when the data points are measured only with finite
precision, and finally (iii) data misspecification in which a small fraction of
all data may be wholly corrupted. We argue that although existing data-driven
formulations may be robust against one of these three sources in isolation they
do not provide holistic protection against all overfitting sources
simultaneously. We design a novel data-driven formulation which does guarantee
such holistic protection and is furthermore computationally viable. Our
distributionally robust optimization formulation can be interpreted as a novel
combination of a Kullback-Leibler and Levy-Prokhorov robust optimization
formulation which is novel in its own right. However, we show how in the
context of classification and regression problems that several popular
regularized and robust formulations reduce to a particular case of our proposed
novel formulation. Finally, we apply the proposed HR formulation on a portfolio
selection problem with real stock data, and analyze its risk/return tradeoff
against several benchmarks formulations. Our experiments show that our novel
ambiguity set provides a significantly better risk/return trade-off.
- Abstract(参考訳): 機械学習と意思決定のためのデータ駆動型定式化の設計は、アウトオブサンプルのパフォーマンスがよい。
良いサンプル内性能が良いサンプル外性能を保証しないという観察は、一般にオーバーフィッティングとして知られている。
実際にはオーバーフィッティングはひとつの原因ではなく、複数の要因を同時に引き起こすのが一般的である。
オーバーフィットする情報源は3つあります
(i)有限サンプルデータを用いた結果の統計的誤差
(ii)データポイントが有限の精度で測定され、最終的に発生するデータノイズ
(iii)すべてのデータのごく一部が完全に破損する可能性のあるデータの誤特定
我々は、既存のデータ駆動定式化がこれら3つのソースのうちの1つに対して独立して堅牢であるとしても、すべてのオーバーフィッティングソースに対する全体的保護は同時には提供しないと主張している。
このような包括的保護を保証する新しいデータ駆動型定式化を設計し、さらに計算可能とする。
この分布にロバストな最適化定式化は、kullback-leiblerとlevy-prokhorovロバストな最適化定式化の新たな組み合わせとして解釈できる。
しかし, 定式化やロバストな定式化は, 分類や回帰の問題の文脈において, 新たに提案した定式化の特定の事例に還元されることを示す。
最後に、提案する人事定式化をポートフォリオ選択問題と実際の株式データに適用し、そのリスク/リターントレードオフをいくつかのベンチマーク定式化に対して分析する。
我々の実験は、新しい曖昧性セットがリスク/リターントレードオフを大幅に改善することを示している。
関連論文リスト
- Learning from Noisy Labels via Conditional Distributionally Robust Optimization [5.85767711644773]
クラウドソーシングは、大規模なデータセットをラベル付けするための実用的なソリューションとして現れました。
これは、様々なレベルの専門知識を持つアノテータからのノイズの多いラベルによって、正確なモデルを学習する上で大きな課題となる。
論文 参考訳(メタデータ) (2024-11-26T05:03:26Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Non-Convex Robust Hypothesis Testing using Sinkhorn Uncertainty Sets [18.46110328123008]
非破壊仮説テスト問題に対処する新しい枠組みを提案する。
目標は、最大数値リスクを最小限に抑える最適な検出器を探すことである。
論文 参考訳(メタデータ) (2024-03-21T20:29:43Z) - The Decaying Missing-at-Random Framework: Doubly Robust Causal Inference
with Partially Labeled Data [10.021381302215062]
現実のシナリオでは、データ収集の制限によって部分的にラベル付けされたデータセットが生成されることが多く、信頼性の高い因果推論の描画が困難になる。
半パラメトリック(SS)や欠落したデータ文学における従来のアプローチは、これらの複雑さを適切に扱えないため、偏りのある見積もりにつながる可能性がある。
このフレームワークは、高次元設定における欠落した結果に対処し、選択バイアスを考慮に入れます。
論文 参考訳(メタデータ) (2023-05-22T07:37:12Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - Distributionally robust risk evaluation with a causality constraint and structural information [0.0]
ニューラルネットワークによるテスト関数を近似し、Rademacherの複雑さによるサンプルの複雑さを証明する。
我々のフレームワークは、分散的にロバストなポートフォリオ選択問題において、従来のものよりも優れています。
論文 参考訳(メタデータ) (2022-03-20T14:48:37Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Learning and Decision-Making with Data: Optimal Formulations and Phase
Transitions [0.0]
歴史的データのみを利用できる場合に最適学習と意思決定の定式化を設計する問題を考察する。
我々は3つの異なるアウト・オブ・サンプル・パフォーマンス・レジームの存在を示す。
論文 参考訳(メタデータ) (2021-09-14T18:20:15Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。