論文の概要: Towards Ground Truth Explainability on Tabular Data
- arxiv url: http://arxiv.org/abs/2007.10532v1
- Date: Mon, 20 Jul 2020 23:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 13:05:20.371551
- Title: Towards Ground Truth Explainability on Tabular Data
- Title(参考訳): タブラルデータにおける地中真理説明可能性に向けて
- Authors: Brian Barr, Ke Xu, Claudio Silva, Enrico Bertini, Robert Reilly, C.
Bayan Bruss, Jason D. Wittenbach
- Abstract要約: データサイエンスでは、メソッド開発、特徴選択、特徴工学に合成データを使うのに長い歴史がある。
私たちの合成データに対する現在の関心は、最近の説明可能性の研究から来ています。
- 参考スコア(独自算出の注目度): 9.34204718727862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In data science, there is a long history of using synthetic data for method
development, feature selection and feature engineering. Our current interest in
synthetic data comes from recent work in explainability. Today's datasets are
typically larger and more complex - requiring less interpretable models. In the
setting of \textit{post hoc} explainability, there is no ground truth for
explanations. Inspired by recent work in explaining image classifiers that does
provide ground truth, we propose a similar solution for tabular data. Using
copulas, a concise specification of the desired statistical properties of a
dataset, users can build intuition around explainability using controlled data
sets and experimentation. The current capabilities are demonstrated on three
use cases: one dimensional logistic regression, impact of correlation from
informative features, impact of correlation from redundant variables.
- Abstract(参考訳): データサイエンスでは、メソッド開発、特徴選択、特徴工学に合成データを使うことには長い歴史がある。
現在、合成データへの関心は、最近の説明可能性の研究から来ている。
今日のデータセットは一般的に大きく、より複雑で、解釈可能なモデルが少ない。
textit{post hoc} の説明可能性の設定では、説明の根拠は存在しません。
基礎的真理を提供する画像分類器の説明に関する最近の研究に触発されて,表データに対する類似のソリューションを提案する。
データセットの望ましい統計特性の簡潔な仕様である copulas を使うことで、ユーザーは制御されたデータセットと実験を使用して説明可能性に関する直感を構築することができる。
現在の能力は、一次元ロジスティック回帰、情報的特徴からの相関の影響、冗長変数からの相関の影響の3つのユースケースで実証されている。
関連論文リスト
- Common-Sense Bias Modeling for Classification Tasks [15.683471433842492]
テキスト記述に基づく画像データセットの包括的バイアスを抽出する新しい枠組みを提案する。
提案手法は,複数の画像ベンチマークデータセットにおける新しいモデルバイアスを明らかにする。
発見されたバイアスは、機能の非相関化のために、単純なデータ再重み付けによって緩和することができる。
論文 参考訳(メタデータ) (2024-01-24T03:56:07Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Are Data-driven Explanations Robust against Out-of-distribution Data? [18.760475318852375]
エンドツーエンドのモデルに依存しない学習フレームワークであるDis Distributionally Robust Explanations (DRE)を提案する。
鍵となる考え方は、分配情報を完全に活用して、人間のアノテーションを使わずに説明の学習のための監視信号を提供することである。
提案手法は,分布変化に対する説明と予測の堅牢性の観点から,モデルの性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-03-29T02:02:08Z) - Dealing with missing data using attention and latent space
regularization [2.610470075814367]
本研究では,観測変数のみを用いた学習と推論のための理論的枠組みを開発する。
我々は、欠落データから生じる潜在的なバイアスに対して規則化する潜在空間表現を持つモデルを構築した。
提案手法は,提案手法の弱点を克服し,現在の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-14T01:05:28Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Discovering Invariant Rationales for Graph Neural Networks [104.61908788639052]
グラフニューラルネットワーク(GNN)の固有の解釈可能性とは、入力グラフの特徴の小さなサブセットを見つけることである。
本稿では,本質的に解釈可能なGNNを構築するために,不変理性(DIR)を発見するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2022-01-30T16:43:40Z) - Causal-TGAN: Generating Tabular Data Using Causal Generative Adversarial
Networks [7.232789848964222]
因果モデルCausal Tabular Generative Neural Network (Causal-TGAN) を提案し,合成データを生成する。
シミュレーションデータセットと実データセットの両方の実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2021-04-21T17:59:41Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。
本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。
実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。
しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文 参考訳(メタデータ) (2020-02-11T11:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。