論文の概要: Data-SUITE: Data-centric identification of in-distribution incongruous
examples
- arxiv url: http://arxiv.org/abs/2202.08836v2
- Date: Fri, 18 Feb 2022 16:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 12:46:47.740657
- Title: Data-SUITE: Data-centric identification of in-distribution incongruous
examples
- Title(参考訳): Data-SUITE:In-distribution incongruous例のデータ中心同定
- Authors: Nabeel Seedat, Jonathan Crabb\'e, Mihaela van der Schaar
- Abstract要約: Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
- 参考スコア(独自算出の注目度): 81.21462458089142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Systematic quantification of data quality is critical for consistent model
performance. Prior works have focused on out-of-distribution data. Instead, we
tackle an understudied yet equally important problem of characterizing
incongruous regions of in-distribution (ID) data, which may arise from feature
space heterogeneity. To this end, we propose a paradigm shift with Data-SUITE:
a data-centric framework to identify these regions, independent of a
task-specific model. DATA-SUITE leverages copula modeling, representation
learning, and conformal prediction to build feature-wise confidence interval
estimators based on a set of training instances. These estimators can be used
to evaluate the congruence of test instances with respect to the training set,
to answer two practically useful questions: (1) which test instances will be
reliably predicted by a model trained with the training instances? and (2) can
we identify incongruous regions of the feature space so that data owners
understand the data's limitations or guide future data collection? We
empirically validate Data-SUITE's performance and coverage guarantees and
demonstrate on cross-site medical data, biased data, and data with concept
drift, that Data-SUITE best identifies ID regions where a downstream model may
be reliable (independent of said model). We also illustrate how these
identified regions can provide insights into datasets and highlight their
limitations.
- Abstract(参考訳): データ品質の体系的定量化は一貫したモデル性能にとって重要である。
以前の研究は、アウトオブディストリビューションデータに重点を置いてきた。
代わりに、特徴空間の不均一性から生じる可能性のある不連続領域(ID)データを特徴付けるという、未検討かつ等しく重要な問題に取り組む。
そこで本研究では,データ中心のフレームワークであるData-SUITEによるパラダイムシフトを提案する。
Data-SUITEは、コプラモデリング、表現学習、コンフォメーション予測を利用して、一連のトレーニングインスタンスに基づいて特徴量信頼区間推定器を構築する。
これらの推定器は、トレーニングセットに関するテストインスタンスの一致を評価するために、(1)トレーニングインスタンスでトレーニングされたモデルによってどのテストインスタンスが確実に予測されるかという、実用的な2つの質問に答えるために使用できる。
そして、(2)データオーナーがデータの制限を理解したり、将来のデータ収集を導くために、特徴空間の不一致領域を識別できますか?
我々は、Data-SUITEの性能とカバレッジ保証を実証的に検証し、クロスサイト医療データ、偏りのあるデータ、コンセプトドリフトデータ、そして、下流モデルが信頼できる(そのモデルに依存しない)ID領域を最もよく識別することを示す。
さらに、これらの特定されたリージョンがデータセットに対する洞察を提供し、その制限を強調する方法について説明する。
関連論文リスト
- Towards a Theoretical Understanding of Memorization in Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(GenAI)の主流モデルとして採用されている。
モデル収束を前提とした条件付きおよび非条件付きDPMにおける記憶の理論的理解を提供する。
本研究では、生成されたデータに基づいて訓練された時間依存型分類器を代理条件として利用し、無条件DPMからトレーニングデータを抽出する、textbfSurrogate condItional Data extract (SIDE) という新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T13:17:06Z) - DAGnosis: Localized Identification of Data Inconsistencies using
Structures [73.39285449012255]
機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。
我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。
我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
論文 参考訳(メタデータ) (2024-02-26T11:29:16Z) - Example-Based Explainable AI and its Application for Remote Sensing
Image Classification [0.0]
入力データに類似したトレーニングデータセットのインスタンスの例を示す。
センチネル2衛星からのリモートセンシング画像データセットを用いて、この概念が実証された。
論文 参考訳(メタデータ) (2023-02-03T03:48:43Z) - Uncertainty in Contrastive Learning: On the Predictability of Downstream
Performance [7.411571833582691]
このような表現の不確実性は、単一のデータポイントに対して有意義な方法で定量化できるかどうかを考察する。
埋め込み空間におけるトレーニングデータの分布を直接推定することにより,この目標を達成することができることを示す。
論文 参考訳(メタデータ) (2022-07-19T15:44:59Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Managing dataset shift by adversarial validation for credit scoring [5.560471251954645]
トレーニングデータの分布と実際に予測する必要があるデータとの矛盾は、モデルパフォーマンスの低下を引き起こす可能性がある。
本稿では,クレジットスコアリングシナリオにおけるデータセットシフト問題を軽減するための,逆検証に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-12-19T07:07:15Z) - Robust Fairness under Covariate Shift [11.151913007808927]
保護グループメンバーシップに関して公正な予測を行うことは、分類アルゴリズムの重要な要件となっている。
本稿では,ターゲット性能の面で最悪のケースに対して頑健な予測値を求める手法を提案する。
論文 参考訳(メタデータ) (2020-10-11T04:42:01Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。