論文の概要: Explaining Concept Shift with Interpretable Feature Attribution
- arxiv url: http://arxiv.org/abs/2505.20634v1
- Date: Tue, 27 May 2025 02:20:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.351135
- Title: Explaining Concept Shift with Interpretable Feature Attribution
- Title(参考訳): 解釈可能な特徴属性による概念シフトの説明
- Authors: Ruiqi Lyu, Alistair Turcan, Bryan Wilder,
- Abstract要約: 概念シフトは、特徴に条件付けされたラベルの分布が変化するときに起こり、十分に調整された機械学習モデルでさえ、根本的に誤った表現を学んだ。
本稿では,SGShiftを提案する。SGShiftは概念シフトを検出し,モデル性能を低下させるモデルである。
SGShiftは、AUC $>0.9$でシフトした特徴を識別し、ベースラインメソッドの2倍か3倍の価格でリコールすることができる。
- 参考スコア(独自算出の注目度): 19.77019587714218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Regardless the amount of data a machine learning (ML) model is trained on, there will inevitably be data that differs from their training set, lowering model performance. Concept shift occurs when the distribution of labels conditioned on the features changes, making even a well-tuned ML model to have learned a fundamentally incorrect representation. Identifying these shifted features provides unique insight into how one dataset differs from another, considering the difference may be across a scientifically relevant dimension, such as time, disease status, population, etc. In this paper, we propose SGShift, a model for detecting concept shift in tabular data and attributing reduced model performance to a sparse set of shifted features. SGShift models concept shift with a Generalized Additive Model (GAM) and performs subsequent feature selection to identify shifted features. We propose further extensions of SGShift by incorporating knockoffs to control false discoveries and an absorption term to account for models with poor fit to the data. We conduct extensive experiments in synthetic and real data across various ML models and find SGShift can identify shifted features with AUC $>0.9$ and recall $>90\%$, often 2 or 3 times as high as baseline methods.
- Abstract(参考訳): 機械学習(ML)モデルがトレーニングされているデータ量に関係なく、トレーニングセットと必然的に異なるデータが存在し、モデルのパフォーマンスが低下します。
概念シフトは、特徴に条件付けされたラベルの分布が変化するときに起こり、十分に調整されたMLモデルでさえ、根本的に誤った表現を学んだ。
これらのシフトした特徴を識別することは、時間、病気の状態、人口など、科学的に関連する次元における違いを考慮すると、データセットが別のデータセットとどう違うのかというユニークな洞察を与える。
本稿では,表データのコンセプトシフトを検出し,モデル性能を低下させるモデルであるSGShiftを提案する。
SGShiftは、GAM(Generalized Additive Model)で概念シフトをモデル化し、その後の機能選択を行い、シフトした特徴を特定する。
偽発見を制御するためにノックオフを組み込んだSGShiftのさらなる拡張と、データに不適合なモデルを考慮した吸収項を提案する。
SGShift は AUC $>0.9$,リコール $>90\%$, 多くの場合, ベースライン手法の 2 倍か 3 倍の高さで, シフトした特徴を識別できる。
関連論文リスト
- Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Explanation Shift: How Did the Distribution Shift Impact the Model? [23.403838118256907]
本研究では,分布変化による説明特性の変化について検討した。
我々は、合成例と実世界のデータセットを用いて、異なる種類の分布シフトを分析する。
我々は、実験を再現するために使用されるコードと同様に、オープンソースのPythonパッケージでメソッドをリリースします。
論文 参考訳(メタデータ) (2023-03-14T17:13:01Z) - Dataset Interfaces: Diagnosing Model Failures Using Controllable
Counterfactual Generation [85.13934713535527]
分散シフトは、機械学習モデルの主要な障害源である。
入力データセットとユーザが指定したシフトを与えられたフレームワークは、望ましいシフトを示すインスタンスを返す。
本稿では,このデータセットインターフェースをImageNetデータセットに適用することにより,分散シフトの多種多様さにまたがるモデル動作の学習が可能になることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:56:26Z) - Estimating and Explaining Model Performance When Both Covariates and
Labels Shift [36.94826820536239]
両ラベルの結合シフトといくつかの特徴を考慮した新しい分散シフトモデル Sparse Joint Shift (SJS) を提案する。
また、SJSにおける分散シフトを特徴付けるアルゴリズムフレームワークSEESを提案し、ラベルなしで新しいデータ上でのモデルの性能を推定する。
論文 参考訳(メタデータ) (2022-09-18T01:16:16Z) - Predicting is not Understanding: Recognizing and Addressing
Underspecification in Machine Learning [47.651130958272155]
下位仕様とは、ドメイン内の精度で区別できない複数のモデルの存在を指す。
我々は、不特定概念を形式化し、それを特定し、部分的に対処する方法を提案する。
論文 参考訳(メタデータ) (2022-07-06T11:20:40Z) - Entropy optimized semi-supervised decomposed vector-quantized
variational autoencoder model based on transfer learning for multiclass text
classification and generation [3.9318191265352196]
多クラステキスト分類とテキスト生成のための半教師付き離散潜在変数モデルを提案する。
提案モデルは,量子化変圧器モデルの学習に伝達学習の概念を用いる。
実験結果から,提案モデルが最先端モデルを大幅に上回ったことが示唆された。
論文 参考訳(メタデータ) (2021-11-10T07:07:54Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。