論文の概要: Counterfactual Training: Teaching Models Plausible and Actionable Explanations
- arxiv url: http://arxiv.org/abs/2601.16205v1
- Date: Thu, 22 Jan 2026 18:56:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.698873
- Title: Counterfactual Training: Teaching Models Plausible and Actionable Explanations
- Title(参考訳): カウンターファクチュアルトレーニング:プラウザブルで行動可能な説明をモデルに教える
- Authors: Patrick Altmeyer, Aleksander Buszydlik, Arie van Deursen, Cynthia C. S. Liem,
- Abstract要約: 本稿では, モデルの説明能力を高めるために, 対実訓練と呼ばれる新しい訓練体制を提案する。
不透明な機械学習モデルに対する一般的なポストホックな説明方法として、カウンターファクトな説明が登場している。
- 参考スコア(独自算出の注目度): 52.967743166658984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel training regime termed counterfactual training that leverages counterfactual explanations to increase the explanatory capacity of models. Counterfactual explanations have emerged as a popular post-hoc explanation method for opaque machine learning models: they inform how factual inputs would need to change in order for a model to produce some desired output. To be useful in real-world decision-making systems, counterfactuals should be plausible with respect to the underlying data and actionable with respect to the feature mutability constraints. Much existing research has therefore focused on developing post-hoc methods to generate counterfactuals that meet these desiderata. In this work, we instead hold models directly accountable for the desired end goal: counterfactual training employs counterfactuals during the training phase to minimize the divergence between learned representations and plausible, actionable explanations. We demonstrate empirically and theoretically that our proposed method facilitates training models that deliver inherently desirable counterfactual explanations and additionally exhibit improved adversarial robustness.
- Abstract(参考訳): 本稿では, モデルの説明能力を高めるために, 対実的説明を活用した対実的訓練という新たな訓練体制を提案する。
反事実的説明は、不透明な機械学習モデルに対する一般的なポストホックな説明方法として現れている。
実世界の意思決定システムで有用であるためには、反ファクトは基礎となるデータに対して検証可能であり、機能変更性制約に関して動作可能であることが必要である。
したがって、多くの既存の研究は、これらのデシダータを満たす反事実を生成するポストホックな方法の開発に焦点をあてている。
反実的トレーニングは、学習された表現と実行可能な説明とのばらつきを最小限に抑えるために、トレーニングフェーズ中に反実的トレーニングを採用する。
提案手法は,本手法が本質的に望ましい対実的説明を提供する訓練モデルを促進するとともに,対人的ロバスト性の向上を示すことを実証的,理論的に実証する。
関連論文リスト
- Enhancing XAI Narratives through Multi-Narrative Refinement and Knowledge Distillation [13.523610021268363]
カウンターファクトな説明は、予測を変える最小限の変更を強調することによって、モデル行動に関する洞察を提供する。
その可能性にもかかわらず、これらの説明はしばしば複雑で技術的であり、非専門家が解釈することを困難にしている。
本稿では,大規模・小規模の言語モデルを用いた新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-03T16:04:09Z) - How to Probe: Simple Yet Effective Techniques for Improving Post-hoc Explanations [69.72654127617058]
ポストホック重要属性法は、ディープニューラルネットワーク(DNN)を"説明"するための一般的なツールである
この研究において、我々はこの概念に挑戦する経験的証拠を提示する。
トレーニング済みモデルの分類レイヤのトレーニング詳細が重要な役割を果たすことを示す。
論文 参考訳(メタデータ) (2025-03-01T22:25:11Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z) - FairALM: Augmented Lagrangian Method for Training Fair Models with
Little Regret [42.66567001275493]
現在、我々がモデルに提示するデータセットのバイアスのため、公正な公開トレーニングが不公平なモデルにつながることは受け入れられている。
そこで本研究では,モデルのトレーニング中に公平性を同時に課すメカニズムについて検討する。
論文 参考訳(メタデータ) (2020-04-03T03:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。