論文の概要: Attribution-based Explanations that Provide Recourse Cannot be Robust
- arxiv url: http://arxiv.org/abs/2205.15834v3
- Date: Wed, 20 Dec 2023 09:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 19:35:28.559821
- Title: Attribution-based Explanations that Provide Recourse Cannot be Robust
- Title(参考訳): Recourseを提供する属性ベースの説明はロバストではない
- Authors: Hidde Fokkema, Rianne de Heide, Tim van Erven
- Abstract要約: 我々は、リコメンデーションの感度の一般的な定義を提供する。これは、どの決定がユーザに関連するかを記述したユーティリティ関数でインスタンス化する必要がある。
このような局所的な属性は、説明されている入力$x$の小さな変化が特徴量に大きな変化を起こさないという意味で、堅牢であるべきだとしばしば主張される。
我々は, 単一帰属法が, 相互に敏感かつロバストの両方を同時に行うことは, 一般に不可能であることを正式に証明する。
- 参考スコア(独自算出の注目度): 5.260841516691153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different users of machine learning methods require different explanations,
depending on their goals. To make machine learning accountable to society, one
important goal is to get actionable options for recourse, which allow an
affected user to change the decision $f(x)$ of a machine learning system by
making limited changes to its input $x$. We formalize this by providing a
general definition of recourse sensitivity, which needs to be instantiated with
a utility function that describes which changes to the decisions are relevant
to the user. This definition applies to local attribution methods, which
attribute an importance weight to each input feature. It is often argued that
such local attributions should be robust, in the sense that a small change in
the input $x$ that is being explained, should not cause a large change in the
feature weights. However, we prove formally that it is in general impossible
for any single attribution method to be both recourse sensitive and robust at
the same time. It follows that there must always exist counterexamples to at
least one of these properties. We provide such counterexamples for several
popular attribution methods, including LIME, SHAP, Integrated Gradients and
SmoothGrad. Our results also cover counterfactual explanations, which may be
viewed as attributions that describe a perturbation of $x$. We further discuss
possible ways to work around our impossibility result, for instance by allowing
the output to consist of sets with multiple attributions, and we provide
sufficient conditions for specific classes of continuous functions to be
recourse sensitive. Finally, we strengthen our impossibility result for the
restricted case where users are only able to change a single attribute of $x$,
by providing an exact characterization of the functions $f$ to which
impossibility applies.
- Abstract(参考訳): 異なる機械学習のユーザは、目的に応じて異なる説明を必要とする。
機械学習を社会に説明責任を持たせるためには、recourseのアクション可能なオプションを得ることが重要な目標だ。これにより、影響を受けるユーザーが入力である$x$を限定的に変更することで、マシンラーニングシステムの$f(x)$を変更できるようになる。
我々は、リコメンデーションの感度の一般的な定義を提供することでこれを形式化する。これは、どの決定がユーザに関連するかを記述するユーティリティ関数でインスタンス化する必要がある。
この定義は各入力特徴に重要な重みを持つ局所帰属法に適用される。
このような局所帰属は、説明されている入力$x$の小さな変更が、機能重みに大きな変化を引き起こすべきではないという意味で、堅牢であるべきである、としばしば主張される。
しかし, 一つの帰属法が, 相互に敏感かつ頑健に同時に行うことは, 一般に不可能であることを示す。
これらの性質の少なくとも1つに対して、常に反例が存在することが従う。
我々は、LIME、SHAP、Integrated Gradients、SmoothGradなど、いくつかの一般的な属性手法に対する反例を提供する。
私たちの結果は、x$の摂動を記述する帰属と見なされる反事実的説明もカバーしています。
例えば、出力が複数の帰属を持つ集合からなるようにすることで、我々の不可能性(unossibility)な結果に対処するための可能な方法を更に議論し、連続関数の特定のクラスが帰結に敏感になるのに十分な条件を提供する。
最後に、ユーザが1つの属性を$x$だけ変更できる制限されたケースに対して、$f$を適用可能な関数の正確な特徴付けを提供することにより、我々の不可能性結果を強化する。
関連論文リスト
- Partial Identifiability and Misspecification in Inverse Reinforcement Learning [64.13583792391783]
Inverse Reinforcement Learning の目的は、報酬関数 $R$ をポリシー $pi$ から推論することである。
本稿では,IRLにおける部分的識別性と不特定性について包括的に分析する。
論文 参考訳(メタデータ) (2024-11-24T18:35:46Z) - Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文 参考訳(メタデータ) (2024-05-24T09:06:12Z) - Generating Counterfactual Explanations Using Cardinality Constraints [0.0]
本論文では, 原例と異なる特徴の数を制限するために, 反ファクト生成に基数制約を明示的に付加することを提案する。
これにより、より解釈が容易で不安定な対策が提供される。
論文 参考訳(メタデータ) (2024-04-11T06:33:19Z) - There is no Accuracy-Interpretability Tradeoff in Reinforcement Learning
for Mazes [64.05903267230467]
相互理解性は,強化学習システムにおける信頼性に不可欠なビルディングブロックである。
場合によっては、最適性を保ちつつ、政策の解釈可能性を達成することができることを示す。
論文 参考訳(メタデータ) (2022-06-09T04:23:26Z) - Online Selective Classification with Limited Feedback [82.68009460301585]
オンライン学習モデルにおいて、予測者がインスタンスの分類を控える可能性のある選択的分類について検討する。
私たちが考慮している設定の健全な2つの側面は、データが不可避である可能性があるため、データは不可避である可能性があるということです。
smash$tildeO(T1-mu)$ over abstention against Adaptive adversaries. smash$tildeO(T1-mu)$ incurring smash$tildeO(T1-mu)$ over abstention。
論文 参考訳(メタデータ) (2021-10-27T08:00:53Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - Quantifying and Improving Transferability in Domain Generalization [53.16289325326505]
アウト・オブ・ディストリビューションの一般化は、実験室から現実世界にモデルを移す際の重要な課題の1つである。
我々は、領域一般化において量子化と計算が可能な転送可能性を正式に定義する。
転送可能な特徴を学習し、様々なベンチマークデータセット上でテストするための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-07T14:04:32Z) - Towards Unifying Feature Attribution and Counterfactual Explanations:
Different Means to the Same End [17.226134854746267]
本稿では,一組の反実例から特徴帰属説明を生成する手法を提案する。
本報告では, 帰属に基づく説明の妥当性を, その必要性と充足性の観点から評価するために, 対実例をいかに活用するかを示す。
論文 参考訳(メタデータ) (2020-11-10T05:41:43Z) - Expressivity of expand-and-sparsify representations [15.016047591601094]
単純なスパースコーディング機構は、いくつかの生物の感覚系に現れる。
z$は情報を$x$でアンパックし、アクセスしやすくする。
この表現が入力空間の多様体構造に適応するかどうかを考える。
論文 参考訳(メタデータ) (2020-06-05T23:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。