論文の概要: Efficient and Accurate Explanation Estimation with Distribution Compression
- arxiv url: http://arxiv.org/abs/2406.18334v2
- Date: Wed, 22 Jan 2025 22:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:56:58.113030
- Title: Efficient and Accurate Explanation Estimation with Distribution Compression
- Title(参考訳): 分布圧縮による効率的かつ正確な説明推定
- Authors: Hubert Baniecki, Giuseppe Casalicchio, Bernd Bischl, Przemyslaw Biecek,
- Abstract要約: ポストホックな説明のために広い範囲のアルゴリズムで使用される標準i.d.サンプリングは、改善に値する近似誤差をもたらすことを示す。
我々は,サンプル効率の説明可能性の新しいパラダイムであるCompress Then Explain (CTE)を紹介した。
CTEは、無視可能な計算オーバーヘッドによる説明推定の精度と安定性を著しく改善する。
- 参考スコア(独自算出の注目度): 17.299418894910627
- License:
- Abstract: We discover a theoretical connection between explanation estimation and distribution compression that significantly improves the approximation of feature attributions, importance, and effects. While the exact computation of various machine learning explanations requires numerous model inferences and becomes impractical, the computational cost of approximation increases with an ever-increasing size of data and model parameters. We show that the standard i.i.d. sampling used in a broad spectrum of algorithms for post-hoc explanation leads to an approximation error worthy of improvement. To this end, we introduce Compress Then Explain (CTE), a new paradigm of sample-efficient explainability. It relies on distribution compression through kernel thinning to obtain a data sample that best approximates its marginal distribution. CTE significantly improves the accuracy and stability of explanation estimation with negligible computational overhead. It often achieves an on-par explanation approximation error 2-3x faster by using fewer samples, i.e. requiring 2-3x fewer model evaluations. CTE is a simple, yet powerful, plug-in for any explanation method that now relies on i.i.d. sampling.
- Abstract(参考訳): 我々は,特徴属性,重要度,効果の近似を著しく改善する,説明推定と分布圧縮の理論的関係を見出した。
様々な機械学習説明の正確な計算には多くのモデル推論が必要であり、実用的ではないが、近似の計算コストはデータやモデルパラメータの増大とともに増大する。
ポストホックな説明のために広い範囲のアルゴリズムで使用される標準i.d.サンプリングは、改善に値する近似誤差をもたらすことを示す。
この目的のために,サンプル効率の説明可能性の新しいパラダイムであるCompress Then Explain (CTE)を紹介した。
カーネルの薄化による分散圧縮に頼って、その限界分布を最もよく近似するデータサンプルを得る。
CTEは、無視可能な計算オーバーヘッドによる説明推定の精度と安定性を著しく改善する。
サンプルを減らし、モデル評価を2~3倍小さくすることで、オンパー説明誤差を2~3倍速くすることが多い。
CTEはシンプルだが強力で、今やi.d.サンプリングに依存しているあらゆる説明法のためのプラグインである。
関連論文リスト
- $O(d/T)$ Convergence Theory for Diffusion Probabilistic Models under Minimal Assumptions [6.76974373198208]
我々は、最小限の仮定の下で、人気のあるSDEベースのサンプルラーに対して高速収束理論を確立する。
解析の結果, スコア関数の$ell_2$-accurate推定値が与えられた場合, 対象分布と生成分布の総変動距離は$O(d/T)$で上限値となることがわかった。
これは、逆プロセスの各ステップでエラーがどのように伝播するかの詳細な特徴を提供する、新しい分析ツールセットによって達成される。
論文 参考訳(メタデータ) (2024-09-27T17:59:10Z) - DistPred: A Distribution-Free Probabilistic Inference Method for Regression and Forecasting [14.390842560217743]
本稿では、回帰予測タスクのためのDistPredという新しい手法を提案する。
予測分布と対象分布の差分を測定するための適切なスコアリングルールを、微分可能な離散形式に変換する。
これにより、モデルは単一のフォワードパスで多数のサンプルをサンプリングし、応答変数の潜在的分布を推定することができる。
論文 参考訳(メタデータ) (2024-06-17T10:33:00Z) - Sparse Variational Student-t Processes [8.46450148172407]
学生Tプロセスは、重い尾の分布とデータセットをアウトリーチでモデル化するために使用される。
本研究では,学生プロセスが現実のデータセットに対してより柔軟になるためのスパース表現フレームワークを提案する。
UCIとKaggleの様々な合成および実世界のデータセットに対する2つの提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-12-09T12:55:20Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Approximate Gibbs Sampler for Efficient Inference of Hierarchical Bayesian Models for Grouped Count Data [0.0]
本研究は、推定精度を維持しつつ、HBPRMを効率的に学習するための近似ギブスサンプリング器(AGS)を開発した。
実データと合成データを用いた数値実験により,AGSの優れた性能を示した。
論文 参考訳(メタデータ) (2022-11-28T21:00:55Z) - Learning Summary Statistics for Bayesian Inference with Autoencoders [58.720142291102135]
我々は,ディープニューラルネットワークに基づくオートエンコーダの内部次元を要約統計として利用する。
パラメータ関連情報を全て符号化するエンコーダのインセンティブを作成するため,トレーニングデータの生成に使用した暗黙的情報にデコーダがアクセスできるようにする。
論文 参考訳(メタデータ) (2022-01-28T12:00:31Z) - Oversampling Divide-and-conquer for Response-skewed Kernel Ridge
Regression [20.00435452480056]
本研究では,分割・分散手法の限界を克服するために,新しい応答適応分割戦略を開発する。
提案手法は, 従来のダックKRR推定値よりも小さい平均二乗誤差(AMSE)を有することを示す。
論文 参考訳(メタデータ) (2021-07-13T04:01:04Z) - Rao-Blackwellizing the Straight-Through Gumbel-Softmax Gradient
Estimator [93.05919133288161]
一般的なGumbel-Softmax推定器のストレートスルー変量の分散は、ラオ・ブラックウェル化により減少できることを示す。
これは平均二乗誤差を確実に減少させる。
これは分散の低減、収束の高速化、および2つの教師なし潜在変数モデルの性能向上につながることを実証的に実証した。
論文 参考訳(メタデータ) (2020-10-09T22:54:38Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z) - Approximate MMAP by Marginal Search [78.50747042819503]
本稿では,グラフィカルモデルにおける最小値MAPクエリの戦略を提案する。
提案した信頼度尺度は,アルゴリズムが正確であるインスタンスを適切に検出するものである。
十分に高い信頼度を得るために、アルゴリズムは正確な解を与えるか、正確な解からハミング距離が小さい近似を与える。
論文 参考訳(メタデータ) (2020-02-12T07:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。