論文の概要: CLIF: Concept-Level Influence Functions for Transparent Bottleneck Models
- arxiv url: http://arxiv.org/abs/2605.19848v2
- Date: Sat, 23 May 2026 09:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.760184
- Title: CLIF: Concept-Level Influence Functions for Transparent Bottleneck Models
- Title(参考訳): CLIF:透明ボトルネックモデルに対する概念レベル影響関数
- Authors: Yike Sun, Mingkun Xu, Mu You, Zhongzhi He, Henghua Shen, Zehan Tan, Derek F. Wong, Tao Fang,
- Abstract要約: 本研究では,NLPモデルのサンプルレベルと概念レベルでの解釈可能性を高めるために,インフルエンス関数を用いた新しい手法を提案する。
CEBaBとYelpのデータセットの実験は、影響関数が最も影響のあるトレーニングサンプルを効果的に識別することを示している。
- 参考スコア(独自算出の注目度): 31.932529831600558
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, the black-box nature of deep learning models has limited their application in high-stakes domains such as medical diagnosis and finance, where interpretability is essential. To address this, we propose a novel approach using influence functions to enhance interpretability in NLP models at both the sample and concept levels. Experiments on CEBaB and Yelp datasets show that influence functions effectively identify the most impactful training samples, both helpful and harmful, on model predictions. By adjusting the labels and weights of these samples, we demonstrate that model performance can be restored to baseline levels without retraining, confirming the value of influence functions for efficient data debugging. Furthermore, our concept-level analysis identifies key concepts within Concept Bottleneck Models (CBM) that significantly affect predictions. Modifying these concepts alters model behavior observably, providing clear insights into the decision process.
- Abstract(参考訳): 近年, 深層学習モデルのブラックボックスの性質は, 診断やファイナンスなど, 解釈可能性に欠かせない領域において, 適用範囲を限定している。
そこで本研究では,NLPモデルのサンプルレベルと概念レベルでの解釈可能性を高めるために,インフルエンス関数を用いた新しい手法を提案する。
CEBaBとYelpのデータセットの実験は、モデル予測において、影響関数が最も影響の大きいトレーニングサンプルを効果的に識別することを示している。
これらのサンプルのラベルと重みを調整することにより、モデルの性能をトレーニングせずにベースラインレベルに復元できることを示し、効率的なデータデバッギングのための影響関数の値を確認する。
さらに,我々の概念レベル分析では,予測に大きく影響を及ぼす概念ボトルネックモデル(CBM)における重要な概念を明らかにしている。
これらの概念を変更することで、モデル行動が観察可能に変更され、決定プロセスに対する明確な洞察が得られます。
関連論文リスト
- Interpretable Reward Modeling with Active Concept Bottlenecks [54.00085739303773]
本稿では,解釈可能な嗜好学習を可能にする報酬モデリングフレームワークであるConcept Bottleneck Reward Models (CB-RM)を紹介する。
不透明報酬関数に依存する標準的なRLHF法とは異なり、CB-RMは報酬予測を人間の解釈可能な概念に分解する。
我々は,最も情報性の高い概念ラベルを動的に取得する能動的学習戦略を定式化する。
論文 参考訳(メタデータ) (2025-07-07T06:26:04Z) - Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
これらの課題に対処するための影響関数フレームワークを開発する。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models [24.073260299592675]
本稿では,影響関数と外乱勾配検出による有害トレーニングサンプルの同定とを橋渡しする。
まず, 合成データセットにおける外乱勾配解析手法の仮説を検証した。
次に、視覚モデルにおける誤ラベルサンプルの検出と、自然言語処理トランスフォーマーモデルの性能向上のためのデータサンプル選択の有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T21:34:46Z) - Explaining Black Box Predictions and Unveiling Data Artifacts through
Influence Functions [55.660255727031725]
影響関数は、影響力のあるトレーニング例を特定することによって、モデルの判断を説明する。
本稿では,代表課題における影響関数と共通単語順応法の比較を行う。
我々は,学習データ中の成果物を明らかにすることができる影響関数に基づく新しい尺度を開発した。
論文 参考訳(メタデータ) (2020-05-14T00:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。