論文の概要: On the Need for a Language Describing Distribution Shifts: Illustrations
on Tabular Datasets
- arxiv url: http://arxiv.org/abs/2307.05284v1
- Date: Tue, 11 Jul 2023 14:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 14:45:42.640610
- Title: On the Need for a Language Describing Distribution Shifts: Illustrations
on Tabular Datasets
- Title(参考訳): 分散シフトを記述する言語の必要性について:表型データセットのイラスト
- Authors: Jiashuo Liu, Tianyu Wang, Peng Cui, Hongseok Namkoong
- Abstract要約: モデル構成86,000以上の5つのデータセットの自然変化を徹底的に調査する。
Y|X$-シフトが最も一般的である。
私たちのテストベッドは、分布の違いを理解するための将来の研究の重要性を強調しています。
- 参考スコア(独自算出の注目度): 31.950967025653142
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Different distribution shifts require different algorithmic and operational
interventions. Methodological research must be grounded by the specific shifts
they address. Although nascent benchmarks provide a promising empirical
foundation, they implicitly focus on covariate shifts, and the validity of
empirical findings depends on the type of shift, e.g., previous observations on
algorithmic performance can fail to be valid when the $Y|X$ distribution
changes. We conduct a thorough investigation of natural shifts in 5 tabular
datasets over 86,000 model configurations, and find that $Y|X$-shifts are most
prevalent. To encourage researchers to develop a refined language for
distribution shifts, we build WhyShift, an empirical testbed of curated
real-world shifts where we characterize the type of shift we benchmark
performance over. Since $Y|X$-shifts are prevalent in tabular settings, we
identify covariate regions that suffer the biggest $Y|X$-shifts and discuss
implications for algorithmic and data-based interventions. Our testbed
highlights the importance of future research that builds an understanding of
how distributions differ.
- Abstract(参考訳): 異なる分散シフトは異なるアルゴリズムと運用の介入を必要とする。
方法論的な研究は、彼らが対処する特定のシフトに基づかなければならない。
初期のベンチマークは有望な実証的基盤を提供するが、彼らは暗黙的に共変量シフトに焦点を当てており、実証的発見の妥当性はシフトの種類に依存する。
我々は86,000モデル構成の5つの表形式のデータセットの自然なシフトを徹底的に調査し、$Y|X$-shiftsが最も多いことを発見した。
研究者に分散シフトのための洗練された言語を開発するように促すために、私たちは、パフォーマンスをベンチマークするシフトのタイプを特徴付ける、実世界のシフトをキュレートした経験的なテストベッドであるwhyshiftを構築します。
Y|X$-shiftsは表の設定でよく見られるので、最大の$Y|X$-shiftsに苦しむ共変量領域を特定し、アルゴリズムやデータに基づく介入の影響について議論する。
私たちのテストベッドは、分布の違いを理解するための将来の研究の重要性を強調しています。
関連論文リスト
- Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
因果表現の識別可能性に寄与する分布シフトのタイプを決定する。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文 参考訳(メタデータ) (2024-03-23T04:13:55Z) - Proxy Methods for Domain Adaptation [78.03254010884783]
プロキシ変数は、遅延変数を明示的にリカバリしたりモデル化したりすることなく、分散シフトへの適応を可能にする。
両設定の複雑な分散シフトに適応する2段階のカーネル推定手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T09:32:41Z) - Enhancing Robustness of Foundation Model Representations under
Provenance-related Distribution Shifts [8.298173603769063]
分布シフト下における基礎モデルに基づくモデルの安定性について検討する。
我々は,多施設データセットの文脈に現れる分布シフトの形式である,証明によるコンバウンディングに焦点をあてる。
その結果, 基礎モデルでは, コンバウンド・バイ・プロビデンス関係の分布シフトに対して, ある程度の頑健性を示すが, 調整により改善できることがわかった。
論文 参考訳(メタデータ) (2023-12-09T02:02:45Z) - Learning Invariant Molecular Representation in Latent Discrete Space [52.13724532622099]
本稿では,分散シフトに対する不変性とロバスト性を示す分子表現を学習するための新しい枠組みを提案する。
我々のモデルは、様々な分布シフトが存在する場合に、最先端のベースラインに対してより強力な一般化を実現する。
論文 参考訳(メタデータ) (2023-10-22T04:06:44Z) - Binary Quantification and Dataset Shift: An Experimental Investigation [54.14283123210872]
量子化は教師付き学習タスクであり、未学習データの集合のクラス有病率の予測器を訓練する。
定量化と他のタイプのデータセットシフトの関係は、いまだ大きく、未調査のままである。
本稿では,これらのシフトに影響を受けるデータセットの生成プロトコルを確立することにより,データセットシフトの種類を詳細に分類する手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T20:11:27Z) - Diagnosing Model Performance Under Distribution Shift [9.143551270841858]
予測モデルは、トレーニングディストリビューションとは異なるターゲットディストリビューションにデプロイされた場合、パフォーマンスが良くない。
提案手法は,1)トレーニングの難易度が高いが頻繁な例の増加,2)特徴と成果の関係の変化,3)トレーニング中の頻度の低い例や見当たらない例のパフォーマンス低下など,パフォーマンスの低下を用語に分解する。
論文 参考訳(メタデータ) (2023-03-03T15:27:16Z) - Explanation Shift: Detecting distribution shifts on tabular data via the
explanation space [13.050516715665166]
本研究では, モデル予測性能とモデル説明特性の分布変化の影響について検討する。
我々は,予測性能変化の検出において,説明シフトのモデル化がより良い指標となることを見出した。
論文 参考訳(メタデータ) (2022-10-22T06:47:13Z) - A unified framework for dataset shift diagnostics [2.449909275410288]
教師付き学習技術は典型的には、訓練データが標的人口に由来すると仮定する。
しかし、データセットのシフトが頻繁に発生し、適切に考慮しなければ、予測器の性能が低下する可能性がある。
我々は、複数のデータセットシフトの定量化とテストを行うTectorShiftという、新しいフレキシブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:34:45Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。