論文の概要: Promises and Pitfalls of Black-Box Concept Learning Models
- arxiv url: http://arxiv.org/abs/2106.13314v1
- Date: Thu, 24 Jun 2021 21:00:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 01:54:54.227206
- Title: Promises and Pitfalls of Black-Box Concept Learning Models
- Title(参考訳): ブラックボックス概念学習モデルの約束と落とし穴
- Authors: Anita Mahinpei, Justin Clark, Isaac Lage, Finale Doshi-Velez, Weiwei
Pan
- Abstract要約: 概念学習を取り入れた機械学習モデルは、事前に定義された概念を超えて情報をエンコードする。
自然緩和戦略は完全には機能せず、下流予測の解釈を誤解させる。
- 参考スコア(独自算出の注目度): 26.787383014558802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models that incorporate concept learning as an intermediate
step in their decision making process can match the performance of black-box
predictive models while retaining the ability to explain outcomes in human
understandable terms. However, we demonstrate that the concept representations
learned by these models encode information beyond the pre-defined concepts, and
that natural mitigation strategies do not fully work, rendering the
interpretation of the downstream prediction misleading. We describe the
mechanism underlying the information leakage and suggest recourse for
mitigating its effects.
- Abstract(参考訳): 概念学習を意思決定プロセスの中間ステップとして取り入れた機械学習モデルは、ブラックボックス予測モデルのパフォーマンスと一致し、人間の理解可能な言葉で結果を説明する能力を保持します。
しかし,これらのモデルによって学習された概念表現は,事前定義された概念を超えた情報をエンコードし,自然緩和戦略が十分に機能しないことを示す。
情報漏洩の根底にあるメカニズムを説明し,その影響を緩和するための回避策を提案する。
関連論文リスト
- MCCE: Missingness-aware Causal Concept Explainer [4.56242146925245]
我々は、すべての概念が観測可能でない場合に因果概念効果を推定するために、ミススティングネス対応因果概念記述器(MCCE)を導入する。
本フレームワークでは,概念不足による残差を考慮し,これらの概念とブラックボックス機械学習モデルの出力の関係を線形予測器を用いてモデル化する。
我々は実世界のデータセットを用いて検証を行い、MCCEが因果概念効果推定における最先端の説明手法と比較して有望な性能を達成することを示す。
論文 参考訳(メタデータ) (2024-11-14T18:03:44Z) - MulCPred: Learning Multi-modal Concepts for Explainable Pedestrian Action Prediction [57.483718822429346]
MulCPredは、トレーニングサンプルで表されるマルチモーダルな概念に基づいて、その予測を説明する。
MulCPredは複数のデータセットとタスクで評価される。
論文 参考訳(メタデータ) (2024-09-14T14:15:28Z) - Self-supervised Interpretable Concept-based Models for Text Classification [9.340843984411137]
本稿では,自己教師型解釈可能な概念埋め込みモデル(ICEM)を提案する。
我々は,大規模言語モデルの一般化能力を活用し,概念ラベルを自己管理的に予測する。
ICEMは、完全に教師されたコンセプトベースモデルやエンドツーエンドのブラックボックスモデルと同じようなパフォーマンスを達成するために、自己管理的な方法でトレーニングすることができる。
論文 参考訳(メタデータ) (2024-06-20T14:04:53Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - SurroCBM: Concept Bottleneck Surrogate Models for Generative Post-hoc
Explanation [11.820167569334444]
本稿では,ブラックボックスモデルを説明するために,SurroCBM(Concept Bottleneck Surrogate Models)を提案する。
SurroCBMは、様々なブラックボックスモデルにまたがる共有概念とユニークな概念を特定し、ホック後の説明のために説明可能なサロゲートモデルを使用している。
自己生成データを用いた効果的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:46:59Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - ConceptDistil: Model-Agnostic Distillation of Concept Explanations [4.462334751640166]
概念に基づく説明は、非技術的人間のためのモデルの解釈可能性ギャップを埋めることを目的としている。
知識蒸留を用いたブラックボックス分類器に概念記述をもたらす方法であるConceptDistilを提案する。
実世界のユースケースでConceptDistilを検証することで、両方のタスクを最適化できることを示す。
論文 参考訳(メタデータ) (2022-05-07T08:58:54Z) - Explainability in Process Outcome Prediction: Guidelines to Obtain
Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。
本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:59:50Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z) - Debiasing Concept-based Explanations with Causal Analysis [4.911435444514558]
本研究は,特徴の相違する情報と相関する概念の問題点について考察する。
観測されていない変数の影響をモデル化するための新しい因果前グラフを提案する。
提案手法は,概念が完成していない場合に有効であることを示す。
論文 参考訳(メタデータ) (2020-07-22T15:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。