論文の概要: SHAP Distance: An Explainability-Aware Metric for Evaluating the Semantic Fidelity of Synthetic Tabular Data
- arxiv url: http://arxiv.org/abs/2511.17590v1
- Date: Mon, 17 Nov 2025 03:47:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.266516
- Title: SHAP Distance: An Explainability-Aware Metric for Evaluating the Semantic Fidelity of Synthetic Tabular Data
- Title(参考訳): SHAP距離:合成語彙データの意味的忠実度評価のための説明可能性を考慮したメトリクス
- Authors: Ke Yu, Shigeru Ishikura, Yukari Usukura, Yuki Shigoku, Teruaki Hayashi,
- Abstract要約: 本稿では,グローバルな SHAP 帰属ベクトル間の余弦距離として定義される,説明可能性を考慮した新しい尺度である SHAP (SHapley Additive exPlanations) Distance を紹介する。
我々は,臨床健康記録に生理的特徴のあるデータセット,不均一スケールの企業請求取引,カテゴリー・数字の混合属性を持つテレコムチャーンログを分析した。
以上の結果から,SHAP Distanceは,Kulback-Leiblerの発散やTrain-on-Synthetic-Test-on-Realの精度が検出できないような,特徴的重要性のシフトや,テール効果の不足を捉えていることがわかった。
- 参考スコア(独自算出の注目度): 7.227194225143588
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Synthetic tabular data, which are widely used in domains such as healthcare, enterprise operations, and customer analytics, are increasingly evaluated to ensure that they preserve both privacy and utility. While existing evaluation practices typically focus on distributional similarity (e.g., the Kullback-Leibler divergence) or predictive performance (e.g., Train-on-Synthetic-Test-on-Real (TSTR) accuracy), these approaches fail to assess semantic fidelity, that is, whether models trained on synthetic data follow reasoning patterns consistent with those trained on real data. To address this gap, we introduce the SHapley Additive exPlanations (SHAP) Distance, a novel explainability-aware metric that is defined as the cosine distance between the global SHAP attribution vectors derived from classifiers trained on real versus synthetic datasets. By analyzing datasets that span clinical health records with physiological features, enterprise invoice transactions with heterogeneous scales, and telecom churn logs with mixed categorical-numerical attributes, we demonstrate that the SHAP Distance reliably identifies semantic discrepancies that are overlooked by standard statistical and predictive measures. In particular, our results show that the SHAP Distance captures feature importance shifts and underrepresented tail effects that the Kullback-Leibler divergence and Train-on-Synthetic-Test-on-Real accuracy fail to detect. This study positions the SHAP Distance as a practical and discriminative tool for auditing the semantic fidelity of synthetic tabular data, and offers practical guidelines for integrating attribution-based evaluation into future benchmarking pipelines.
- Abstract(参考訳): 医療、企業オペレーション、顧客分析などの領域で広く使われている合成表型データは、プライバシとユーティリティの両方を維持するために、ますます評価されている。
既存の評価手法では、分布の類似性(例えば、Kullback-Leiblerの分岐)や予測性能(例えば、Train-on-Synthetic-Test-on-Real(TSTR)の精度)に重点を置いているが、これらの手法は意味的忠実性の評価に失敗している。
このギャップに対処するために、実データと合成データセットで訓練された分類器から導出されるグローバルなSHAP属性ベクトル間の余弦距離として定義される、説明可能性に配慮した新しい距離であるSHAPディスタンス(SHAP)ディスタンス(SHAP)を導入する。
臨床健康記録に生理的特徴のあるデータセット,不均質なスケールの企業請求取引,混合カテゴリー・数字属性のテレコムチャーンログを解析することにより,SHAP Distanceが標準的な統計的・予測的尺度で見過ごされる意味的不一致を確実に識別できることを実証した。
特に, SHAP Distanceは, Kullback-Leibler の発散とTrain-on-Synthetic-Test-on-Real の精度が検出できないという特徴的重要性のシフトを捉え, テール効果の低さが示唆された。
本研究は、SHAP Distanceを、合成表データの意味的忠実度を評価するための実用的で差別的なツールとして位置づけ、属性に基づく評価を将来のベンチマークパイプラインに統合するための実践的ガイドラインを提供する。
関連論文リスト
- Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Position: Mechanistic Interpretability Should Prioritize Feature Consistency in SAEs [34.52554840674882]
本稿では,機械的解釈可能性について,SAEにおける特徴整合性を優先すべきであると主張している。
本稿では,Pairwise Dictionaryの平均相関係数を実測値として用いて,一貫性を運用する手法を提案する。
論文 参考訳(メタデータ) (2025-05-26T17:31:36Z) - How Real Are Synthetic Therapy Conversations? Evaluating Fidelity in Prolonged Exposure Dialogues [14.457387337806765]
医療における合成データの採用は、プライバシの懸念、データアクセスの制限、高いアノテーションコストによって引き起こされる。
本稿では,PTSDに対するPE(Prolonged Exposure)治療の総合的会話を,臨床モデルの訓練にスケーラブルな代替手段として検討する。
ターンテイキングや治療の忠実度といった,言語,構造,プロトコル固有の指標を用いて,実と合成の対話を体系的に比較する。
論文 参考訳(メタデータ) (2025-04-30T16:56:56Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - Evaluating Inter-Column Logical Relationships in Synthetic Tabular Data Generation [49.898152180805454]
本稿では,論理的関係の保存性を評価するための3つの評価指標を提案する。
実世界の産業データセット上での古典的手法と最先端の手法の両方の性能を評価することにより,これらの指標を検証する。
論文 参考訳(メタデータ) (2025-02-06T13:13:26Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Perturbation-Assisted Sample Synthesis: A Novel Approach for Uncertainty
Quantification [3.175239447683357]
本稿では、摂動支援サンプル合成(PASS)法により生成された合成データを利用した新しい摂動支援推論(PAI)フレームワークを提案する。
このフレームワークは、複雑なデータシナリオ、特に非構造化データの不確実性定量化に焦点を当てている。
我々は、画像合成、感情語分析、マルチモーダル推論、予測区間の構築など、様々な分野に適用することで、複雑なデータ駆動タスクにおける不確実性定量化を推し進める上で、PAIの有効性を実証する。
論文 参考訳(メタデータ) (2023-05-30T01:01:36Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。