論文の概要: When stakes are high: balancing accuracy and transparency with
Model-Agnostic Interpretable Data-driven suRRogates
- arxiv url: http://arxiv.org/abs/2007.06894v2
- Date: Thu, 10 Dec 2020 17:44:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 13:49:11.237057
- Title: When stakes are high: balancing accuracy and transparency with
Model-Agnostic Interpretable Data-driven suRRogates
- Title(参考訳): 利害が高ければ - Model-Agnostic Interpretable Data-driven surrogates による正確性と透明性のバランス
- Authors: Roel Henckaerts and Katrien Antonio and Marie-Pier C\^ot\'e
- Abstract要約: 銀行や保険のような高度に規制された産業は、透明性のある意思決定アルゴリズムを求めている。
モデル非依存型解釈型データ駆動型SuRRogate(maidrr)の開発手順を提案する。
知識は部分依存効果によってブラックボックスから抽出される。
これにより、自動変数選択による特徴空間のセグメンテーションが実現される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Highly regulated industries, like banking and insurance, ask for transparent
decision-making algorithms. At the same time, competitive markets are pushing
for the use of complex black box models. We therefore present a procedure to
develop a Model-Agnostic Interpretable Data-driven suRRogate (maidrr) suited
for structured tabular data. Knowledge is extracted from a black box via
partial dependence effects. These are used to perform smart feature engineering
by grouping variable values. This results in a segmentation of the feature
space with automatic variable selection. A transparent generalized linear model
(GLM) is fit to the features in categorical format and their relevant
interactions. We demonstrate our R package maidrr with a case study on general
insurance claim frequency modeling for six publicly available datasets. Our
maidrr GLM closely approximates a gradient boosting machine (GBM) black box and
outperforms both a linear and tree surrogate as benchmarks.
- Abstract(参考訳): 銀行や保険のような高度に規制された産業は、透明な意思決定アルゴリズムを求めます。
同時に、競争市場は複雑なブラックボックスモデルの使用を推進している。
そこで我々は,構造化表データに適したモデル非依存型解釈型データ駆動型SuRRogate(maidrr)を提案する。
知識は部分依存効果によってブラックボックスから抽出される。
これらは可変値のグループ化によってスマートな機能エンジニアリングを実行するために使用される。
これにより、自動変数選択による特徴空間のセグメンテーションが実現される。
透過的一般化線形モデル(glm)は、カテゴリー形式とその関連する相互作用の特徴に適合する。
6つの公開データセットに対する一般保険請求頻度モデリングのケーススタディでRパッケージメイドルを実証した。
我々のメイドラーGLMは、勾配押し上げ機(GBM)のブラックボックスを近似し、ベンチマークとして線形と木のサロゲートの両方に優れる。
関連論文リスト
- SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation [55.87169702896249]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,DA手法の評価と,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの公平な評価を行うフレームワークを提案する。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z) - Identifying Light-curve Signals with a Deep Learning Based Object
Detection Algorithm. II. A General Light Curve Classification Framework [0.0]
弱教師付き物体検出モデルを用いて光曲線を分類するための新しいディープラーニングフレームワークを提案する。
本フレームワークは,光曲線とパワースペクトルの両方に最適なウィンドウを自動同定し,対応するデータにズームインする。
我々は、変動星と過渡星の宇宙と地上の両方のマルチバンド観測から得られたデータセットに基づいてモデルを訓練する。
論文 参考訳(メタデータ) (2023-11-14T11:08:34Z) - CELDA: Leveraging Black-box Language Model as Enhanced Classifier
without Labels [14.285609493077965]
クラスタリング強化線形識別分析(Linar Discriminative Analysis)は、非常に弱いスーパービジョン信号を用いてテキスト分類精度を向上させる新しい手法である。
我々のフレームワークは、LMモデルやデータラベルの重みや勾配にアクセスすることなく、正確な決定境界を描画する。
論文 参考訳(メタデータ) (2023-06-05T08:35:31Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - GMMSeg: Gaussian Mixture based Generative Semantic Segmentation Models [74.0430727476634]
結合分布 p(ピクセル特徴,クラス) の高密度な生成型分類器に依存する分割モデルの新たなファミリーを提案する。
さまざまなセグメンテーションアーキテクチャとバックボーンにより、GMMSegはクローズドセットデータセットにおいて差別的よりも優れています。
GMMSegは、オープンワールドデータセットでもうまく機能する。
論文 参考訳(メタデータ) (2022-10-05T05:20:49Z) - Interpreting Black-box Machine Learning Models for High Dimensional
Datasets [40.09157165704895]
我々は、高次元データセット上でブラックボックスモデルをトレーニングし、その分類が行われる埋め込みを学習する。
次に、トップk特徴空間上の解釈可能な代理モデルを用いてブラックボックスモデルの挙動を近似する。
我々のアプローチは、異なるデータセットでテストした場合、TabNetやXGboostのような最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-08-29T07:36:17Z) - Self-service Data Classification Using Interactive Visualization and
Interpretable Machine Learning [9.13755431537592]
Iterative Visual Logical (IVLC) は、解釈可能な機械学習アルゴリズムである。
IVLCは、医療領域における癌データのような機密で重要なデータを扱う際に特に有用である。
この章では、新しいコーディネートオーダー(COO)アルゴリズムと遺伝的アルゴリズムを組み合わせた自動分類手法を提案する。
論文 参考訳(メタデータ) (2021-07-11T05:39:14Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Interpretabilit\'e des mod\`eles : \'etat des lieux des m\'ethodes et
application \`a l'assurance [1.6058099298620423]
データは、今日の多くのモデルの原材料であり、デジタルサービスの品質とパフォーマンスを向上させることができる。
モデル利用者は、モデルが差別されないようにし、その結果を説明することも可能であることを保証する必要がある。
予測アルゴリズムのパネルを広げると、科学者はモデルの使用について警戒するようになる。
論文 参考訳(メタデータ) (2020-07-25T12:18:07Z) - Semi-Supervised Learning with Normalizing Flows [54.376602201489995]
FlowGMMは、フローの正規化を伴う生成半教師付き学習におけるエンドツーエンドのアプローチである。
我々は AG-News や Yahoo Answers のテキストデータなど,幅広いアプリケーションに対して有望な結果を示す。
論文 参考訳(メタデータ) (2019-12-30T17:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。