論文の概要: Promises and Pitfalls of Black-Box Concept Learning Models
- arxiv url: http://arxiv.org/abs/2106.13314v1
- Date: Thu, 24 Jun 2021 21:00:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 01:54:54.227206
- Title: Promises and Pitfalls of Black-Box Concept Learning Models
- Title(参考訳): ブラックボックス概念学習モデルの約束と落とし穴
- Authors: Anita Mahinpei, Justin Clark, Isaac Lage, Finale Doshi-Velez, Weiwei
Pan
- Abstract要約: 概念学習を取り入れた機械学習モデルは、事前に定義された概念を超えて情報をエンコードする。
自然緩和戦略は完全には機能せず、下流予測の解釈を誤解させる。
- 参考スコア(独自算出の注目度): 26.787383014558802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models that incorporate concept learning as an intermediate
step in their decision making process can match the performance of black-box
predictive models while retaining the ability to explain outcomes in human
understandable terms. However, we demonstrate that the concept representations
learned by these models encode information beyond the pre-defined concepts, and
that natural mitigation strategies do not fully work, rendering the
interpretation of the downstream prediction misleading. We describe the
mechanism underlying the information leakage and suggest recourse for
mitigating its effects.
- Abstract(参考訳): 概念学習を意思決定プロセスの中間ステップとして取り入れた機械学習モデルは、ブラックボックス予測モデルのパフォーマンスと一致し、人間の理解可能な言葉で結果を説明する能力を保持します。
しかし,これらのモデルによって学習された概念表現は,事前定義された概念を超えた情報をエンコードし,自然緩和戦略が十分に機能しないことを示す。
情報漏洩の根底にあるメカニズムを説明し,その影響を緩和するための回避策を提案する。
関連論文リスト
- Beyond Concept Bottleneck Models: How to Make Black Boxes Intervenable? [9.002523763052848]
本稿では,すでに訓練済みのニューラルネットワークに対して,概念に基づく介入を行う手法を提案する。
本稿では,概念に基づく介入の有効性の尺度として,モデルの介入可能性について定式化する。
微調整は介入効率を向上し、しばしばより良い校正予測をもたらすことを示す。
論文 参考訳(メタデータ) (2024-01-24T16:02:14Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - SurroCBM: Concept Bottleneck Surrogate Models for Generative Post-hoc
Explanation [11.820167569334444]
本稿では,ブラックボックスモデルを説明するために,SurroCBM(Concept Bottleneck Surrogate Models)を提案する。
SurroCBMは、様々なブラックボックスモデルにまたがる共有概念とユニークな概念を特定し、ホック後の説明のために説明可能なサロゲートモデルを使用している。
自己生成データを用いた効果的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:46:59Z) - Learning to Receive Help: Intervention-Aware Concept Embedding Models [46.7616863339095]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、高レベルの概念セットを使用して予測を構築し、説明することによって、ニューラルネットワークの不透明さに対処する。
近年の研究では、介入効果は概念が介入される順序に大きく依存していることが示されている。
IntCEM(Intervention-Aware Concept Embedding Model)は,テスト時間介入に対するモデルの受容性を改善する新しいCBMアーキテクチャとトレーニングパラダイムである。
論文 参考訳(メタデータ) (2023-09-29T02:04:24Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - ConceptDistil: Model-Agnostic Distillation of Concept Explanations [4.462334751640166]
概念に基づく説明は、非技術的人間のためのモデルの解釈可能性ギャップを埋めることを目的としている。
知識蒸留を用いたブラックボックス分類器に概念記述をもたらす方法であるConceptDistilを提案する。
実世界のユースケースでConceptDistilを検証することで、両方のタスクを最適化できることを示す。
論文 参考訳(メタデータ) (2022-05-07T08:58:54Z) - Explainability in Process Outcome Prediction: Guidelines to Obtain
Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。
本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:59:50Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Right for the Right Concept: Revising Neuro-Symbolic Concepts by
Interacting with their Explanations [24.327862278556445]
本稿では,意味レベルでのモデル修正を可能にするニューロ・シンボリックシーン表現を提案する。
CLEVR-Hansの実験の結果は、私たちのセマンティックな説明が共同創設者を識別できることを示しています。
論文 参考訳(メタデータ) (2020-11-25T16:23:26Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z) - Debiasing Concept-based Explanations with Causal Analysis [4.911435444514558]
本研究は,特徴の相違する情報と相関する概念の問題点について考察する。
観測されていない変数の影響をモデル化するための新しい因果前グラフを提案する。
提案手法は,概念が完成していない場合に有効であることを示す。
論文 参考訳(メタデータ) (2020-07-22T15:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。