論文の概要: It's All in the Mix: Wasserstein Classification and Regression with Mixed Features
- arxiv url: http://arxiv.org/abs/2312.12230v2
- Date: Mon, 07 Apr 2025 13:24:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 05:26:19.032086
- Title: It's All in the Mix: Wasserstein Classification and Regression with Mixed Features
- Title(参考訳): Wassersteinの分類と機能混在による回帰
- Authors: Reza Belbasi, Aras Selvi, Wolfram Wiesemann,
- Abstract要約: 我々は、離散的特徴の存在を忠実に説明できる分布的に堅牢な予測モデルを開発し、分析する。
我々のモデルは、離散的特徴の存在に非依存な既存手法を著しく上回り得ることを実証する。
- 参考スコア(独自算出の注目度): 5.106912532044251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Problem definition: A key challenge in supervised learning is data scarcity, which can cause prediction models to overfit to the training data and perform poorly out of sample. A contemporary approach to combat overfitting is offered by distributionally robust problem formulations that consider all data-generating distributions close to the empirical distribution derived from historical samples, where 'closeness' is determined by the Wasserstein distance. While such formulations show significant promise in prediction tasks where all input features are continuous, they scale exponentially when discrete features are present. Methodology/results: We demonstrate that distributionally robust mixed-feature classification and regression problems can indeed be solved in polynomial time. Our proof relies on classical ellipsoid method-based solution schemes that do not scale well in practice. To overcome this limitation, we develop a practically efficient (yet, in the worst case, exponential time) cutting plane-based algorithm that admits a polynomial time separation oracle, despite the presence of exponentially many constraints. We compare our method against alternative techniques both theoretically and empirically on standard benchmark instances. Managerial implications: Data-driven operations management problems often involve prediction models with discrete features. We develop and analyze distributionally robust prediction models that faithfully account for the presence of discrete features, and we demonstrate that our models can significantly outperform existing methods that are agnostic to the presence of discrete features, both theoretically and on standard benchmark instances.
- Abstract(参考訳): 問題定義: 教師あり学習における重要な課題はデータの不足である。
戦闘オーバーフィッティングに対する現代のアプローチは、ワッサーシュタイン距離によって「近接性」が決定される歴史的サンプルから導かれる経験的分布に近い全てのデータ生成分布を考察した、分布的に堅牢な問題定式化によって提供される。
このような定式化は、全ての入力特徴が連続している予測タスクにおいて有望であるが、離散的特徴が存在する場合、指数関数的にスケールする。
方法論/再帰性: 分布的に頑健な混合特徴分類と回帰問題を多項式時間で解くことができることを示す。
我々の証明は、実際にはうまくスケールしない古典的エリプソイド法に基づく解法に依存する。
この制限を克服するために、指数的に多くの制約があるにもかかわらず多項式時間分離オラクルを許容する事実上効率的な(最悪の場合、指数時間)切断平面ベースアルゴリズムを開発した。
提案手法を,標準ベンチマークインスタンス上で理論的,実証的に代替手法と比較する。
管理的意味: データ駆動型の運用管理の問題には、しばしば独立した特徴を持つ予測モデルが含まれる。
我々は、離散的特徴の存在を忠実に説明できる分布的堅牢な予測モデルを開発し、分析し、我々のモデルは、理論上も標準的ベンチマークインスタンス上においても、離散的特徴の存在に非依存な既存手法を著しく上回り得ることを示した。
関連論文リスト
- Forecasting Outside the Box: Application-Driven Optimal Pointwise Forecasts for Stochastic Optimization [0.0]
本稿では,未知の状況の最適近似を導出する統合学習と最適化手法を提案する。
文献の在庫問題と実データを用いた自転車共有問題から得られた数値結果から,提案手法が有効であることを示す。
論文 参考訳(メタデータ) (2024-11-05T21:54:50Z) - Comparative study of regression vs pairwise models for surrogate-based heuristic optimisation [1.2535250082638645]
本稿では, シュロゲート問題の定式化を, 適合度を近似する回帰モデル(表面シュロゲートモデル)と, 分類モデル(ペアワイズ・シュロゲートモデル)を結合する新しい方法の両方として扱う。
オンライン機械学習に基づくサロゲートモデルを用いる場合の全体探索の性能は、予測モデルの精度だけでなく、正または負のケースに対するバイアスの種類にも依存する。
論文 参考訳(メタデータ) (2024-10-04T13:19:06Z) - Learning from Uncertain Data: From Possible Worlds to Possible Models [13.789554282826835]
本研究では,不確実性のあるデータから線形モデルを学習するための効率的な手法を提案する。
我々はこれらのデータセットの変動をコンパクトに表現し、すべての可能な世界における勾配勾配のシンボリックな実行を可能にする。
提案手法は,全ての可能な最適モデルと予測範囲を過度に近似する。
論文 参考訳(メタデータ) (2024-05-28T19:36:55Z) - Distributionally Robust Skeleton Learning of Discrete Bayesian Networks [9.46389554092506]
我々は、潜在的に破損したデータから一般的な離散ベイズネットワークの正確なスケルトンを学習する問題を考察する。
本稿では,有界ワッサーシュタイン距離(KL)における分布群に対する最も有害なリスクを,経験的分布へのKL分散を最適化することを提案する。
本稿では,提案手法が標準正規化回帰手法と密接に関連していることを示す。
論文 参考訳(メタデータ) (2023-11-10T15:33:19Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - TACTiS: Transformer-Attentional Copulas for Time Series [76.71406465526454]
時間変化量の推定は、医療や金融などの分野における意思決定の基本的な構成要素である。
本稿では,アテンションベースデコーダを用いて関節分布を推定する多元的手法を提案する。
本研究では,本モデルが実世界の複数のデータセットに対して最先端の予測を生成することを示す。
論文 参考訳(メタデータ) (2022-02-07T21:37:29Z) - Robust, Accurate Stochastic Optimization for Variational Inference [68.83746081733464]
また, 共通最適化手法は, 問題が適度に大きい場合, 変分近似の精度が低下することを示した。
これらの結果から,基礎となるアルゴリズムをマルコフ連鎖の生成とみなして,より堅牢で正確な最適化フレームワークを開発する。
論文 参考訳(メタデータ) (2020-09-01T19:12:11Z) - $\beta$-Cores: Robust Large-Scale Bayesian Data Summarization in the
Presence of Outliers [14.918826474979587]
古典的ベイズ推定の質は、観測結果が推定データ生成モデルに適合するかどうかに大きく依存する。
本稿では,大容量データセットに同時スケール可能な変分推論手法を提案する。
多様なシミュレーションおよび実データ、および様々な統計モデルにおいて、我々のアプローチの適用性について説明する。
論文 参考訳(メタデータ) (2020-08-31T13:47:12Z) - Modal Uncertainty Estimation via Discrete Latent Representation [4.246061945756033]
本稿では,インプットとアウトプットの1対1マッピングを,忠実な不確実性対策とともに学習するディープラーニングフレームワークを提案する。
我々のフレームワークは、現在の最先端手法よりもはるかに正確な不確実性推定を実証している。
論文 参考訳(メタデータ) (2020-07-25T05:29:34Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。