論文の概要: On the Need for a Language Describing Distribution Shifts: Illustrations
on Tabular Datasets
- arxiv url: http://arxiv.org/abs/2307.05284v1
- Date: Tue, 11 Jul 2023 14:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 14:45:42.640610
- Title: On the Need for a Language Describing Distribution Shifts: Illustrations
on Tabular Datasets
- Title(参考訳): 分散シフトを記述する言語の必要性について:表型データセットのイラスト
- Authors: Jiashuo Liu, Tianyu Wang, Peng Cui, Hongseok Namkoong
- Abstract要約: モデル構成86,000以上の5つのデータセットの自然変化を徹底的に調査する。
Y|X$-シフトが最も一般的である。
私たちのテストベッドは、分布の違いを理解するための将来の研究の重要性を強調しています。
- 参考スコア(独自算出の注目度): 31.950967025653142
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Different distribution shifts require different algorithmic and operational
interventions. Methodological research must be grounded by the specific shifts
they address. Although nascent benchmarks provide a promising empirical
foundation, they implicitly focus on covariate shifts, and the validity of
empirical findings depends on the type of shift, e.g., previous observations on
algorithmic performance can fail to be valid when the $Y|X$ distribution
changes. We conduct a thorough investigation of natural shifts in 5 tabular
datasets over 86,000 model configurations, and find that $Y|X$-shifts are most
prevalent. To encourage researchers to develop a refined language for
distribution shifts, we build WhyShift, an empirical testbed of curated
real-world shifts where we characterize the type of shift we benchmark
performance over. Since $Y|X$-shifts are prevalent in tabular settings, we
identify covariate regions that suffer the biggest $Y|X$-shifts and discuss
implications for algorithmic and data-based interventions. Our testbed
highlights the importance of future research that builds an understanding of
how distributions differ.
- Abstract(参考訳): 異なる分散シフトは異なるアルゴリズムと運用の介入を必要とする。
方法論的な研究は、彼らが対処する特定のシフトに基づかなければならない。
初期のベンチマークは有望な実証的基盤を提供するが、彼らは暗黙的に共変量シフトに焦点を当てており、実証的発見の妥当性はシフトの種類に依存する。
我々は86,000モデル構成の5つの表形式のデータセットの自然なシフトを徹底的に調査し、$Y|X$-shiftsが最も多いことを発見した。
研究者に分散シフトのための洗練された言語を開発するように促すために、私たちは、パフォーマンスをベンチマークするシフトのタイプを特徴付ける、実世界のシフトをキュレートした経験的なテストベッドであるwhyshiftを構築します。
Y|X$-shiftsは表の設定でよく見られるので、最大の$Y|X$-shiftsに苦しむ共変量領域を特定し、アルゴリズムやデータに基づく介入の影響について議論する。
私たちのテストベッドは、分布の違いを理解するための将来の研究の重要性を強調しています。
関連論文リスト
- Counterfactual Fairness through Transforming Data Orthogonal to Bias [7.109458605736819]
我々は新しいデータ前処理アルゴリズムOrthogonal to Bias (OB)を提案する。
OBは、連続的な敏感な変数群の影響を排除し、機械学習アプリケーションにおける反ファクトフェアネスを促進するように設計されている。
OBはモデルに依存しないため、幅広い機械学習モデルやタスクに適用できる。
論文 参考訳(メタデータ) (2024-03-26T16:40:08Z) - Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。
また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文 参考訳(メタデータ) (2023-10-25T05:24:23Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - A Fine-Grained Analysis on Distribution Shift [24.084676204709723]
本稿では,分布変化の微粒化解析を可能にするフレームワークを提案する。
合成と実世界の両方のデータセットにまたがる5つのカテゴリにグループ分けされた19の異なる手法を評価する。
私たちのフレームワークは簡単に拡張でき、新しいメソッド、シフト、データセットを含めることができます。
論文 参考訳(メタデータ) (2021-10-21T17:57:08Z) - Non-stationary Gaussian process discriminant analysis with variable
selection for high-dimensional functional data [0.0]
高次元分類と特徴選択は、最近のデータ取得技術の進歩とともに至るところで行われている。
これらの構造は、主に変数の選択と分類を別々に行う2段階のアプローチに依存する一般的な手法に、さらなる課題をもたらす。
本稿では、これらのステップを統一されたフレームワークで組み合わせた、新しいガウス過程判別分析(GPDA)を提案する。
論文 参考訳(メタデータ) (2021-09-29T03:35:49Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z) - Domain adaptation under structural causal models [2.627046865670577]
ドメイン適応(DA)は、モデルをトレーニングするために使用されるソースデータが、モデルをテストするために使用されるターゲットデータとは異なるときに発生する。
近年のDAの進歩は主に応用駆動型である。
本稿では,DA手法の予測性能の解析と比較を可能にする構造因果モデルによる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2020-10-29T17:09:34Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。