Fugu-MT 論文翻訳(概要): DAGnosis: Localized Identification of Data Inconsistencies using Structures

論文の概要: DAGnosis: Localized Identification of Data Inconsistencies using Structures

arxiv url: http://arxiv.org/abs/2402.17599v2
Date: Wed, 28 Feb 2024 10:46:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 11:50:35.900069
Title: DAGnosis: Localized Identification of Data Inconsistencies using Structures
Title（参考訳）: DAGnosis: 構造を用いたデータ不整合の局所的同定
Authors: Nicolas Huynh, Jeroen Berrevoets, Nabeel Seedat, Jonathan Crabb\'e, Zhaozhi Qian, Mihaela van der Schaar
Abstract要約: 機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
参考スコア（独自算出の注目度）: 73.39285449012255
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Identification and appropriate handling of inconsistencies in data at deployment time is crucial to reliably use machine learning models. While recent data-centric methods are able to identify such inconsistencies with respect to the training set, they suffer from two key limitations: (1) suboptimality in settings where features exhibit statistical independencies, due to their usage of compressive representations and (2) lack of localization to pin-point why a sample might be flagged as inconsistent, which is important to guide future data collection. We solve these two fundamental limitations using directed acyclic graphs (DAGs) to encode the training set's features probability distribution and independencies as a structure. Our method, called DAGnosis, leverages these structural interactions to bring valuable and insightful data-centric conclusions. DAGnosis unlocks the localization of the causes of inconsistencies on a DAG, an aspect overlooked by previous approaches. Moreover, we show empirically that leveraging these interactions (1) leads to more accurate conclusions in detecting inconsistencies, as well as (2) provides more detailed insights into why some samples are flagged.
Abstract（参考訳）: 機械学習モデルを確実に使用するためには,デプロイメント時のデータ不整合の識別と適切な処理が不可欠である。最近のデータセントリックな手法は、トレーニングセットに関してこのような矛盾を識別できるが、(1)圧縮表現の使用による特徴が統計的に無依存である設定における非最適性、(2)サンプルが一貫性に欠ける可能性がある理由をピンポイントで特定できない、という2つの重要な制限に苦しめられている。本研究では、有向非巡回グラフ(DAG)を用いて、トレーニングセットの特徴分布と非依存性を構造として符号化する。 dagnosisと呼ばれるこの手法は、これらの構造的相互作用を利用して、価値と洞察に富んだデータ中心の結論をもたらす。 DAGnosisは、従来のアプローチで見過ごされた側面であるDAG上の不整合の原因の局所化を解き放つ。さらに,これらの相互作用を活用することにより,(1)不整合の検出におけるより正確な結論が得られ,(2)サンプルのフラグ付けについてより詳細な知見が得られた。

関連論文リスト

Fault Detection and Monitoring using a Data-Driven Information-Based Strategy: Method, Theory, and Application [5.056456697289351]
本稿では,新しいコンセプトドリフト検出器に基づく情報駆動型故障検出手法を提案する。本手法は,加法雑音モデルの入出力関係におけるドリフトの同定に適している。提案したMIに基づく故障検出手法の理論的特性を実証する。
論文参考訳（メタデータ） (2024-05-06T17:43:39Z)
Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文参考訳（メタデータ） (2024-02-20T18:53:53Z)
General Identifiability and Achievability for Causal Representation Learning [33.80247458590611]
本稿では,潜伏因果グラフにおけるノード毎の2つのハードアンカップリング介入を用いて,識別可能性と達成性を評価する。同定可能性について,未結合の介入の下で潜伏因果モデルと変数の完全回復が保証されることを示す。さらに、この分析は、2つのハードカップリングされた介入に対して、同一ノードが介在する2つの環境に関するメタデータが知られている場合に、識別可能性の結果を回復する。
論文参考訳（メタデータ） (2023-10-24T01:47:44Z)
Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文参考訳（メタデータ） (2022-10-06T16:52:38Z)
Context-Aware Drift Detection [0.0]
均質性の2サンプル試験は、既存のドリフト検出手法が構築される基礎となる。条件分布処理効果の2サンプル試験の基礎の上に構築した,より一般的なドリフト検出フレームワークを開発した。
論文参考訳（メタデータ） (2022-03-16T14:23:02Z)
Data-SUITE: Data-centric identification of in-distribution incongruous examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文参考訳（メタデータ） (2022-02-17T18:58:31Z)
Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文参考訳（メタデータ） (2021-12-07T08:04:12Z)
BCD Nets: Scalable Variational Approaches for Bayesian Causal Discovery [97.79015388276483]
構造方程式モデル(SEM)は、有向非巡回グラフ(DAG)を介して表される因果関係を推論する効果的な枠組みである。近年の進歩により、観測データからDAGの有効最大点推定が可能となった。線形ガウス SEM を特徴付ける DAG 上の分布を推定するための変分フレームワークである BCD Nets を提案する。
論文参考訳（メタデータ） (2021-12-06T03:35:21Z)
On Disentangled Representations Learned From Correlated Data [59.41587388303554]
相関データに対する最も顕著な絡み合うアプローチの挙動を解析することにより、現実のシナリオにギャップを埋める。本研究では,データセットの体系的相関が学習され,潜在表現に反映されていることを示す。また、トレーニング中の弱い監督や、少数のラベルで事前訓練されたモデルを修正することで、これらの潜伏相関を解消する方法を実証する。
論文参考訳（メタデータ） (2020-06-14T12:47:34Z)
MissDeepCausal: Causal Inference from Incomplete Data Using Deep Latent Variable Models [14.173184309520453]
因果推論の最先端の手法は、欠落した値を考慮していない。欠落したデータは、適応された未確立仮説を必要とする。欠落した値に適応した変分オートエンコーダを通じて分布を学習する潜在的共同設立者について考察する。
論文参考訳（メタデータ） (2020-02-25T12:58:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。