論文の概要: Rethinking Distribution Shifts: Empirical Analysis and Inductive Modeling for Tabular Data
- arxiv url: http://arxiv.org/abs/2307.05284v4
- Date: Wed, 13 Nov 2024 15:53:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:09:23.235178
- Title: Rethinking Distribution Shifts: Empirical Analysis and Inductive Modeling for Tabular Data
- Title(参考訳): 分布シフトを再考する: 単語データに対する経験的分析と帰納的モデリング
- Authors: Jiashuo Liu, Tianyu Wang, Peng Cui, Hongseok Namkoong,
- Abstract要約: 5つのデータセットと6万のメソッド構成にまたがる自然なシフトを含む実験的なテストベッドを構築します。
ML文献のX$(co)シフトに重きを置いているのとは対照的に、Y|X$-shiftsはテストベッドでもっとも一般的です。
- 参考スコア(独自算出の注目度): 30.518020409197767
- License:
- Abstract: Different distribution shifts require different interventions, and algorithms must be grounded in the specific shifts they address. However, methodological development for robust algorithms typically relies on structural assumptions that lack empirical validation. Advocating for an empirically grounded data-driven approach to research, we build an empirical testbed comprising natural shifts across 5 tabular datasets and 60,000 method configurations encompassing imbalanced learning and distributionally robust optimization (DRO) methods. We find $Y|X$-shifts are most prevalent on our testbed, in stark contrast to the heavy focus on $X$ (covariate)-shifts in the ML literature. The performance of robust algorithms varies significantly over shift types, and is no better than that of vanilla methods. To understand why, we conduct an in-depth empirical analysis of DRO methods and find that although often neglected by researchers, implementation details -- such as the choice of underlying model class (e.g., XGBoost) and hyperparameter selection -- have a bigger impact on performance than the ambiguity set or its radius. To further bridge that gap between methodological research and practice, we design case studies that illustrate how such a data-driven, inductive understanding of distribution shifts can enhance both data-centric and algorithmic interventions.
- Abstract(参考訳): 異なる分散シフトは異なる介入を必要とし、アルゴリズムはそれらが対処する特定のシフトに基礎を置く必要がある。
しかし、ロバストアルゴリズムの方法論的開発は一般に経験的検証に欠ける構造的仮定に依存している。
5つのグラフデータセットと6万のメソッド構成に、不均衡学習と分散ロバスト最適化(DRO)メソッドを含む自然なシフトを含む実験的なテストベッドを構築した。
ML文献のX$(共変量)シフトに重きを置いているのとは対照的に、Y|X$-shiftsはテストベッドで最も多く使われている。
頑健なアルゴリズムの性能はシフトタイプによって大きく異なり、バニラ法ほど良くない。
そこで我々はDRO手法の詳細な実験分析を行い、研究者によってしばしば無視されるが、基礎となるモデルクラス(例えば、XGBoost)やハイパーパラメータ選択などの実装の詳細は、あいまいさセットや半径よりもパフォーマンスに大きな影響を与えることを発見した。
方法論的な研究と実践のギャップをさらに埋めるために、そのようなデータ駆動型、帰納的な分散シフトの理解が、データ中心とアルゴリズムの介入をいかに促進するかを示すケーススタディを設計する。
関連論文リスト
- Counterfactual Fairness through Transforming Data Orthogonal to Bias [7.109458605736819]
我々は新しいデータ前処理アルゴリズムOrthogonal to Bias (OB)を提案する。
OBは、連続的な敏感な変数群の影響を排除し、機械学習アプリケーションにおける反ファクトフェアネスを促進するように設計されている。
OBはモデルに依存しないため、幅広い機械学習モデルやタスクに適用できる。
論文 参考訳(メタデータ) (2024-03-26T16:40:08Z) - Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。
また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文 参考訳(メタデータ) (2023-10-25T05:24:23Z) - Learning Invariant Molecular Representation in Latent Discrete Space [52.13724532622099]
本稿では,分散シフトに対する不変性とロバスト性を示す分子表現を学習するための新しい枠組みを提案する。
我々のモデルは、様々な分布シフトが存在する場合に、最先端のベースラインに対してより強力な一般化を実現する。
論文 参考訳(メタデータ) (2023-10-22T04:06:44Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - Learning Distributionally Robust Models at Scale via Composite
Optimization [45.47760229170775]
DROの異なる変種が、スケーラブルな方法を提供する有限サム合成最適化の単なる例であることを示す。
また、非常に大規模なデータセットからロバストなモデルを学ぶために、先行技術に関して提案アルゴリズムの有効性を示す実験結果も提供する。
論文 参考訳(メタデータ) (2022-03-17T20:47:42Z) - A Fine-Grained Analysis on Distribution Shift [24.084676204709723]
本稿では,分布変化の微粒化解析を可能にするフレームワークを提案する。
合成と実世界の両方のデータセットにまたがる5つのカテゴリにグループ分けされた19の異なる手法を評価する。
私たちのフレームワークは簡単に拡張でき、新しいメソッド、シフト、データセットを含めることができます。
論文 参考訳(メタデータ) (2021-10-21T17:57:08Z) - Non-stationary Gaussian process discriminant analysis with variable
selection for high-dimensional functional data [0.0]
高次元分類と特徴選択は、最近のデータ取得技術の進歩とともに至るところで行われている。
これらの構造は、主に変数の選択と分類を別々に行う2段階のアプローチに依存する一般的な手法に、さらなる課題をもたらす。
本稿では、これらのステップを統一されたフレームワークで組み合わせた、新しいガウス過程判別分析(GPDA)を提案する。
論文 参考訳(メタデータ) (2021-09-29T03:35:49Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。