論文の概要: DAGnosis: Localized Identification of Data Inconsistencies using
Structures
- arxiv url: http://arxiv.org/abs/2402.17599v2
- Date: Wed, 28 Feb 2024 10:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 11:50:35.900069
- Title: DAGnosis: Localized Identification of Data Inconsistencies using
Structures
- Title(参考訳): DAGnosis: 構造を用いたデータ不整合の局所的同定
- Authors: Nicolas Huynh, Jeroen Berrevoets, Nabeel Seedat, Jonathan Crabb\'e,
Zhaozhi Qian, Mihaela van der Schaar
- Abstract要約: 機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。
我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。
我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
- 参考スコア(独自算出の注目度): 73.39285449012255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identification and appropriate handling of inconsistencies in data at
deployment time is crucial to reliably use machine learning models. While
recent data-centric methods are able to identify such inconsistencies with
respect to the training set, they suffer from two key limitations: (1)
suboptimality in settings where features exhibit statistical independencies,
due to their usage of compressive representations and (2) lack of localization
to pin-point why a sample might be flagged as inconsistent, which is important
to guide future data collection. We solve these two fundamental limitations
using directed acyclic graphs (DAGs) to encode the training set's features
probability distribution and independencies as a structure. Our method, called
DAGnosis, leverages these structural interactions to bring valuable and
insightful data-centric conclusions. DAGnosis unlocks the localization of the
causes of inconsistencies on a DAG, an aspect overlooked by previous
approaches. Moreover, we show empirically that leveraging these interactions
(1) leads to more accurate conclusions in detecting inconsistencies, as well as
(2) provides more detailed insights into why some samples are flagged.
- Abstract(参考訳): 機械学習モデルを確実に使用するためには,デプロイメント時のデータ不整合の識別と適切な処理が不可欠である。
最近のデータセントリックな手法は、トレーニングセットに関してこのような矛盾を識別できるが、(1)圧縮表現の使用による特徴が統計的に無依存である設定における非最適性、(2)サンプルが一貫性に欠ける可能性がある理由をピンポイントで特定できない、という2つの重要な制限に苦しめられている。
本研究では、有向非巡回グラフ(DAG)を用いて、トレーニングセットの特徴分布と非依存性を構造として符号化する。
dagnosisと呼ばれるこの手法は、これらの構造的相互作用を利用して、価値と洞察に富んだデータ中心の結論をもたらす。
DAGnosisは、従来のアプローチで見過ごされた側面であるDAG上の不整合の原因の局所化を解き放つ。
さらに,これらの相互作用を活用することにより,(1)不整合の検出におけるより正確な結論が得られ,(2)サンプルのフラグ付けについてより詳細な知見が得られた。
関連論文リスト
- Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。
これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。
提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-20T18:53:53Z) - General Identifiability and Achievability for Causal Representation
Learning [33.80247458590611]
本稿では,潜伏因果グラフにおけるノード毎の2つのハードアンカップリング介入を用いて,識別可能性と達成性を評価する。
同定可能性について,未結合の介入の下で潜伏因果モデルと変数の完全回復が保証されることを示す。
さらに、この分析は、2つのハードカップリングされた介入に対して、同一ノードが介在する2つの環境に関するメタデータが知られている場合に、識別可能性の結果を回復する。
論文 参考訳(メタデータ) (2023-10-24T01:47:44Z) - Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。
提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。
本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文 参考訳(メタデータ) (2022-10-06T16:52:38Z) - Context-Aware Drift Detection [0.0]
均質性の2サンプル試験は、既存のドリフト検出手法が構築される基礎となる。
条件分布処理効果の2サンプル試験の基礎の上に構築した,より一般的なドリフト検出フレームワークを開発した。
論文 参考訳(メタデータ) (2022-03-16T14:23:02Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - BCD Nets: Scalable Variational Approaches for Bayesian Causal Discovery [97.79015388276483]
構造方程式モデル(SEM)は、有向非巡回グラフ(DAG)を介して表される因果関係を推論する効果的な枠組みである。
近年の進歩により、観測データからDAGの有効最大点推定が可能となった。
線形ガウス SEM を特徴付ける DAG 上の分布を推定するための変分フレームワークである BCD Nets を提案する。
論文 参考訳(メタデータ) (2021-12-06T03:35:21Z) - On Disentangled Representations Learned From Correlated Data [59.41587388303554]
相関データに対する最も顕著な絡み合うアプローチの挙動を解析することにより、現実のシナリオにギャップを埋める。
本研究では,データセットの体系的相関が学習され,潜在表現に反映されていることを示す。
また、トレーニング中の弱い監督や、少数のラベルで事前訓練されたモデルを修正することで、これらの潜伏相関を解消する方法を実証する。
論文 参考訳(メタデータ) (2020-06-14T12:47:34Z) - MissDeepCausal: Causal Inference from Incomplete Data Using Deep Latent
Variable Models [14.173184309520453]
因果推論の最先端の手法は、欠落した値を考慮していない。
欠落したデータは、適応された未確立仮説を必要とする。
欠落した値に適応した変分オートエンコーダを通じて分布を学習する潜在的共同設立者について考察する。
論文 参考訳(メタデータ) (2020-02-25T12:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。