Fugu-MT 論文翻訳(概要): Holistic Robust Data-Driven Decisions

論文の概要: Holistic Robust Data-Driven Decisions

arxiv url: http://arxiv.org/abs/2207.09560v1
Date: Tue, 19 Jul 2022 21:28:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-21 12:49:38.766446
Title: Holistic Robust Data-Driven Decisions
Title（参考訳）: 総合的ロバストなデータ駆動決定
Authors: Amine Bennouna and Bart Van Parys
Abstract要約: 実際にはオーバーフィッティングはひとつの原因ではなく、複数の要因を同時に引き起こすのが一般的である。ここでは, (i) 有限サンプルデータを用いた結果の統計的誤差, (ii) データポイントを有限精度で測定した場合に発生するデータノイズ, (iii) データのごく一部が完全に破損する可能性のあるデータ不特定性という3つの過度な結果について考察する。既存のデータ駆動型定式化は、これらの3つのソースのうちの1つに対して、独立して堅牢であるかもしれないが、すべてのオーバーフィットソースに対して、全体的な保護を提供していない、と我々は主張する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The design of data-driven formulations for machine learning and decision-making with good out-of-sample performance is a key challenge. The observation that good in-sample performance does not guarantee good out-of-sample performance is generally known as overfitting. Practical overfitting can typically not be attributed to a single cause but instead is caused by several factors all at once. We consider here three overfitting sources: (i) statistical error as a result of working with finite sample data, (ii) data noise which occurs when the data points are measured only with finite precision, and finally (iii) data misspecification in which a small fraction of all data may be wholly corrupted. We argue that although existing data-driven formulations may be robust against one of these three sources in isolation they do not provide holistic protection against all overfitting sources simultaneously. We design a novel data-driven formulation which does guarantee such holistic protection and is furthermore computationally viable. Our distributionally robust optimization formulation can be interpreted as a novel combination of a Kullback-Leibler and Levy-Prokhorov robust optimization formulation. Finally, we show how in the context of classification and regression problems several popular regularized and robust formulations reduce to a particular case of our proposed more general formulation.
Abstract（参考訳）: 機械学習と意思決定のためのデータ駆動型定式化の設計は、アウトオブサンプルのパフォーマンスがよい。良いサンプル内性能が良いサンプル外性能を保証しないという観察は、一般にオーバーフィッティングとして知られている。実際にはオーバーフィッティングはひとつの原因ではなく、複数の要因を同時に引き起こすのが一般的である。オーバーフィットする情報源は3つあります (i)有限サンプルデータを用いた結果の統計的誤差 (ii)データポイントが有限の精度で測定され、最終的に発生するデータノイズ (iii)すべてのデータのごく一部が完全に破損する可能性のあるデータの誤特定我々は、既存のデータ駆動定式化がこれら3つのソースのうちの1つに対して独立して堅牢であるとしても、すべてのオーバーフィッティングソースに対する全体的保護は同時には提供しないと主張している。このような包括的保護を保証する新しいデータ駆動型定式化を設計し、さらに計算可能とする。分布的にロバストな最適化定式化は、kullback-leiblerとlevy-prokhorovロバスト最適化定式化の新しい組み合わせとして解釈することができる。最後に, 分類問題や回帰問題において, 一般的な定式化やロバストな定式化が, 提案するより一般的な定式化の特定の場合にどのように還元されるかを示す。

関連論文リスト

Distributionally Robust Optimization with Adversarial Data Contamination [49.89480853499918]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文参考訳（メタデータ） (2025-07-14T18:34:10Z)
From Invariant Representations to Invariant Data: Provable Robustness to Spurious Correlations via Noisy Counterfactual Matching [11.158961763380278]
最近の代替手段はテストタイムデータを活用することで堅牢性を向上させるが、実際にはそのようなデータは利用できないかもしれない。不変なデータペアとノイズの多い逆ファクトマッチングを活用することで、データ中心のアプローチを取る。我々は、合成データセット上で検証し、事前訓練されたバックボーン上の線形探索が堅牢性を向上させる実世界のベンチマークを実証する。
論文参考訳（メタデータ） (2025-05-30T17:42:32Z)
Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
予測型因果推論(PPCI)に焦点をあてる PPCIは、未ラベルの事実結果を用いた対象実験における治療効果を推定し、事前訓練されたモデルからゼロショットを取得する。バニラ実験的リスク最小化によって解決不可能なインスタンスに対するソリューションを提供するため,本手法を合成および実世界の科学的データに対して検証する。
論文参考訳（メタデータ） (2025-02-10T10:52:17Z)
A Conformal Approach to Feature-based Newsvendor under Model Misspecification [2.801095519296785]
共形予測にインスパイアされたモデルフリーで分散フリーなフレームワークを提案する。ワシントンD.C.のCapital Bikeshareプログラムのシミュレーションデータと実世界のデータセットを用いて,我々のフレームワークを検証する。
論文参考訳（メタデータ） (2024-12-17T18:34:43Z)
MIBP-Cert: Certified Training against Data Perturbations with Mixed-Integer Bilinear Programs [50.41998220099097]
トレーニング中のデータエラー、汚職、中毒攻撃は、現代のAIシステムの信頼性に大きな脅威をもたらす。混合整数双線形プログラミング(MIBP)に基づく新しい認証手法MIBP-Certを紹介する。摂動データや操作データを通じて到達可能なパラメータの集合を計算することで、可能なすべての結果を予測することができ、堅牢性を保証することができる。
論文参考訳（メタデータ） (2024-12-13T14:56:39Z)
Learning from Noisy Labels via Conditional Distributionally Robust Optimization [5.85767711644773]
クラウドソーシングは、大規模なデータセットをラベル付けするための実用的なソリューションとして現れました。これは、様々なレベルの専門知識を持つアノテータからのノイズの多いラベルによって、正確なモデルを学習する上で大きな課題となる。
論文参考訳（メタデータ） (2024-11-26T05:03:26Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文参考訳（メタデータ） (2024-05-19T17:49:33Z)
A Generative Deep Learning Approach for Crash Severity Modeling with Imbalanced Data [6.169163527464771]
本研究では,条件付きタブラリGANに基づくクラッシュデータ生成手法を提案する。分類と解釈の性能を推定するために、クラッシュ重大度モデルを用いる。以上の結果から,CTGAN-RUが生成した合成データを用いた衝突重大度モデリングは,他の再サンプリング法により生成された原データや合成データよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-04-02T16:07:27Z)
Non-Convex Robust Hypothesis Testing using Sinkhorn Uncertainty Sets [18.46110328123008]
非破壊仮説テスト問題に対処する新しい枠組みを提案する。目標は、最大数値リスクを最小限に抑える最適な検出器を探すことである。
論文参考訳（メタデータ） (2024-03-21T20:29:43Z)
The Decaying Missing-at-Random Framework: Doubly Robust Causal Inference with Partially Labeled Data [10.021381302215062]
現実のシナリオでは、データ収集の制限によって部分的にラベル付けされたデータセットが生成されることが多く、信頼性の高い因果推論の描画が困難になる。半パラメトリック(SS)や欠落したデータ文学における従来のアプローチは、これらの複雑さを適切に扱えないため、偏りのある見積もりにつながる可能性がある。このフレームワークは、高次元設定における欠落した結果に対処し、選択バイアスを考慮に入れます。
論文参考訳（メタデータ） (2023-05-22T07:37:12Z)
Robust Direct Learning for Causal Data Fusion [14.462235940634969]
我々は、他のニュアンス関数から処理効果を分離するマルチソースデータを統合するためのフレームワークを提供する。また,半パラメトリック効率理論の理論的洞察に基づく因果情報認識重み付け関数を提案する。
論文参考訳（メタデータ） (2022-11-01T03:33:22Z)
Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。 AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文参考訳（メタデータ） (2022-09-22T04:32:51Z)
DRFLM: Distributionally Robust Federated Learning with Inter-client Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。上記の2つの課題を同時に解決するための一般的な枠組みを提案する。我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文参考訳（メタデータ） (2022-04-16T08:08:29Z)
Distributionally robust risk evaluation with a causality constraint and structural information [0.0]
ニューラルネットワークによるテスト関数を近似し、Rademacherの複雑さによるサンプルの複雑さを証明する。我々のフレームワークは、分散的にロバストなポートフォリオ選択問題において、従来のものよりも優れています。
論文参考訳（メタデータ） (2022-03-20T14:48:37Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Learning and Decision-Making with Data: Optimal Formulations and Phase Transitions [0.0]
歴史的データのみを利用できる場合に最適学習と意思決定の定式化を設計する問題を考察する。我々は3つの異なるアウト・オブ・サンプル・パフォーマンス・レジームの存在を示す。
論文参考訳（メタデータ） (2021-09-14T18:20:15Z)
Risk Minimization from Adaptively Collected Data: Guarantees for Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文参考訳（メタデータ） (2021-06-03T09:50:13Z)
Trust but Verify: Assigning Prediction Credibility by Counterfactual Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文参考訳（メタデータ） (2020-11-24T19:52:38Z)
Learning while Respecting Privacy and Robustness to Distributional Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文参考訳（メタデータ） (2020-07-07T18:25:25Z)
Unlabelled Data Improves Bayesian Uncertainty Calibration under Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文参考訳（メタデータ） (2020-06-26T13:50:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。