論文の概要: Tab-Shapley: Identifying Top-k Tabular Data Quality Insights
- arxiv url: http://arxiv.org/abs/2501.06685v1
- Date: Sun, 12 Jan 2025 02:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:38.412533
- Title: Tab-Shapley: Identifying Top-k Tabular Data Quality Insights
- Title(参考訳): Tab-Shapley:Top-k Tabular Data Quality Insightsの特定
- Authors: Manisha Padala, Lokesh Nagalapatti, Atharv Tyagi, Ramasuri Narayanam, Shiv Kumar Saini,
- Abstract要約: 本研究では,データの異常な性質に対する各属性の寄与を定量化するために,Shapley値を用いた協調ゲーム理論に基づくフレームワークであるTab-Shapleyを紹介する。
シェープリー値の計算は通常指数時間を必要とするが、我々のゲームはクローズドフォームの解を認め、計算を効率的にすることを示した。
- 参考スコア(独自算出の注目度): 7.666573679741346
- License:
- Abstract: We present an unsupervised method for aggregating anomalies in tabular datasets by identifying the top-k tabular data quality insights. Each insight consists of a set of anomalous attributes and the corresponding subsets of records that serve as evidence to the user. The process of identifying these insight blocks is challenging due to (i) the absence of labeled anomalies, (ii) the exponential size of the subset search space, and (iii) the complex dependencies among attributes, which obscure the true sources of anomalies. Simple frequency-based methods fail to capture these dependencies, leading to inaccurate results. To address this, we introduce Tab-Shapley, a cooperative game theory based framework that uses Shapley values to quantify the contribution of each attribute to the data's anomalous nature. While calculating Shapley values typically requires exponential time, we show that our game admits a closed-form solution, making the computation efficient. We validate the effectiveness of our approach through empirical analysis on real-world tabular datasets with ground-truth anomaly labels.
- Abstract(参考訳): 本稿では,トップkの表層データ品質の洞察を同定することにより,表層データセットの異常を集約する教師なし手法を提案する。
各インサイトは、異常な属性のセットと、ユーザへのエビデンスとして機能するレコードの対応するサブセットで構成されている。
これらの洞察ブロックを特定するプロセスは困難である。
(i)ラベル付き異常がないこと。
(ii)部分集合探索空間の指数的サイズ、及び
(3)属性間の複雑な依存関係は、真の異常の原因を曖昧にしている。
単純な周波数ベースのメソッドはこれらの依存関係をキャプチャできず、不正確な結果をもたらす。
これを解決するために,Shapley値を用いた協調ゲーム理論に基づくフレームワークであるTab-Shapleyを導入し,データの異常な性質に対する各属性の寄与を定量化する。
シェープリー値の計算は通常指数時間を必要とするが、我々のゲームはクローズドフォームの解を認め、計算を効率的にすることを示した。
提案手法の有効性を実世界の表層データセットにおける実験解析により検証した。
関連論文リスト
- Disentangling Tabular Data Towards Better One-Class Anomaly Detection [24.549797910707092]
一級分類条件下でのタブラル異常検出は重要な課題である。
通常のサンプル中の属性間の本質的な相関を捉えることは、その概念を学ぶための1つの有望な方法を示す。
その結果,AUC-PRでは6.1%,AUC-ROCでは2.1%の性能向上が得られた。
論文 参考訳(メタデータ) (2024-11-12T06:24:11Z) - End-to-end guarantees for indirect data-driven control of bilinear systems with finite stochastic data [0.0468732641979009]
本稿では,安定性が保証された双線形システムの間接的データ駆動制御のためのエンドツーエンドアルゴリズムを提案する。
広範にわたる数値的な研究により、制御器設計と導出された識別誤差境界との相互作用を示す。
論文 参考訳(メタデータ) (2024-09-26T16:19:49Z) - Anomaly Detection by Context Contrasting [57.695202846009714]
異常検出は、標準から逸脱するサンプルを特定することに焦点を当てる。
近年の自己教師型学習の進歩は、この点において大きな可能性を秘めている。
我々はコンテキスト拡張を通じて学習するCon$を提案する。
論文 参考訳(メタデータ) (2024-05-29T07:59:06Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - Learning Representations without Compositional Assumptions [79.12273403390311]
本稿では,特徴集合をグラフノードとして表現し,それらの関係を学習可能なエッジとして表現することで,特徴集合の依存関係を学習するデータ駆動型アプローチを提案する。
また,複数のビューから情報を動的に集約するために,より小さな潜在グラフを学習する新しい階層グラフオートエンコーダLEGATOを導入する。
論文 参考訳(メタデータ) (2023-05-31T10:36:10Z) - Beyond Individual Input for Deep Anomaly Detection on Tabular Data [0.0]
異常検出は、金融、医療、サイバーセキュリティなど、多くの領域において不可欠である。
私たちの知る限りでは、この機能機能とサンプルサンプル依存関係をうまく組み合わせる最初の作業です。
提案手法は,F1スコアとAUROCをそれぞれ2.4%,AUROCを1.2%上回り,最先端性能を実現している。
論文 参考訳(メタデータ) (2023-05-24T13:13:26Z) - Framing Algorithmic Recourse for Anomaly Detection [18.347886926848563]
我々は,タブラルデータ(CARAT)における異常に対する文脈保存型アルゴリズムレコースを提案する。
CARATはトランスフォーマーベースのエンコーダデコーダモデルを用いて、低い確率で特徴を見つけることで異常を説明する。
異常なインスタンス内の特徴の全体的コンテキストを使用して、強調された特徴を変更することによって、意味的に一貫性のある反事実が生成される。
論文 参考訳(メタデータ) (2022-06-29T03:30:51Z) - SLA$^2$P: Self-supervised Anomaly Detection with Adversarial
Perturbation [77.71161225100927]
異常検出は、機械学習の基本的な問題であるが、難しい問題である。
本稿では,非教師付き異常検出のための新しい強力なフレームワークであるSLA$2$Pを提案する。
論文 参考訳(メタデータ) (2021-11-25T03:53:43Z) - Toward Deep Supervised Anomaly Detection: Reinforcement Learning from
Partially Labeled Anomaly Data [150.9270911031327]
本稿では,一部のラベル付き異常事例と大規模ラベルなしデータセットを用いた異常検出の問題点について考察する。
既存の関連手法は、通常、一連の異常にまたがらない限られた異常例にのみ適合するか、ラベルのないデータから教師なしの学習を進めるかのいずれかである。
そこで本研究では,ラベル付きおよびラベルなし両方の異常の検出をエンドツーエンドに最適化する,深層強化学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-15T03:05:39Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。