論文の概要: ALMANACS: A Simulatability Benchmark for Language Model Explainability
- arxiv url: http://arxiv.org/abs/2312.12747v1
- Date: Wed, 20 Dec 2023 03:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 16:50:50.571808
- Title: ALMANACS: A Simulatability Benchmark for Language Model Explainability
- Title(参考訳): ALMANACS: 言語モデルの説明可能性のためのシミュラビリティベンチマーク
- Authors: Edmund Mills, Shiye Su, Stuart Russell, Scott Emmons
- Abstract要約: 言語モデル説明可能性ベンチマークであるALMANACSを提案する。
AlMANACSは、シミュラビリティに関する説明可能性の手法、すなわち、説明が新しい入力の振る舞い予測をいかに改善するかをスコアする。
我々はALMANACSを用いて、反事実、合理化、注意、統合的グラディエンスの説明を評価する。
- 参考スコア(独自算出の注目度): 9.87304786633641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How do we measure the efficacy of language model explainability methods?
While many explainability methods have been developed, they are typically
evaluated on bespoke tasks, preventing an apples-to-apples comparison. To help
fill this gap, we present ALMANACS, a language model explainability benchmark.
ALMANACS scores explainability methods on simulatability, i.e., how well the
explanations improve behavior prediction on new inputs. The ALMANACS scenarios
span twelve safety-relevant topics such as ethical reasoning and advanced AI
behaviors; they have idiosyncratic premises to invoke model-specific behavior;
and they have a train-test distributional shift to encourage faithful
explanations. By using another language model to predict behavior based on the
explanations, ALMANACS is a fully automated benchmark. We use ALMANACS to
evaluate counterfactuals, rationalizations, attention, and Integrated Gradients
explanations. Our results are sobering: when averaged across all topics, no
explanation method outperforms the explanation-free control. We conclude that
despite modest successes in prior work, developing an explanation method that
aids simulatability in ALMANACS remains an open challenge.
- Abstract(参考訳): 言語モデル説明可能性手法の有効性をどう測定するか。
多くの説明可能な方法が開発されているが、通常は独創的なタスクで評価され、リンゴとリンゴの比較を妨げている。
このギャップを埋めるために、言語モデル説明可能性ベンチマークであるALMANACSを紹介する。
ALMANACSは、シミュラビリティに関する説明可能性の手法、すなわち、説明が新しい入力の振る舞い予測をいかに改善するかを評価する。
ALMANACSのシナリオは、倫理的推論や高度なAI行動など、12の安全関連トピック、モデル固有の振る舞いを呼び出すための慣用的な前提、忠実な説明を促進するための列車-テストの分散シフトにまたがっている。
他の言語モデルを使用して説明に基づいて振る舞いを予測することで、ALMANACSは完全に自動化されたベンチマークである。
我々はALMANACSを用いて、反事実、合理化、注意、統合的グラディエンスの説明を評価する。
すべてのトピックを平均すると、説明の方法が説明のないコントロールを上回らないのです。
ALMANACS におけるシミュラビリティを補助する説明手法の開発は, 先行研究がやや成功したにもかかわらず, 未解決の課題である。
関連論文リスト
- An Ontology-Enabled Approach For User-Centered and Knowledge-Enabled Explanations of AI Systems [0.3480973072524161]
説明可能性に関する最近の研究は、AIモデルやモデル説明可能性の動作を説明することに重点を置いている。
この論文は、モデルとユーザ中心の説明可能性の間のギャップを埋めようとしている。
論文 参考訳(メタデータ) (2024-10-23T02:03:49Z) - Towards More Faithful Natural Language Explanation Using Multi-Level
Contrastive Learning in VQA [7.141288053123662]
視覚的質問応答(VQA-NLE)における自然言語の説明は,ブラックボックスシステムに対するユーザの信頼を高めるために,自然言語文を生成することによって,モデルの意思決定プロセスを説明することを目的としている。
既存のポストホックな説明は、人間の論理的推論と常に一致している訳ではなく、1) 誘惑的不満足な説明は、生成した説明が論理的に答えに繋がらないこと、2) 現実的不整合性、2) 画像上の事実を考慮せずに解答の反事実的説明を偽示すること、3) 意味的摂動の過敏性、モデルは、小さな摂動によって引き起こされる意味的変化を認識できないこと、である。
論文 参考訳(メタデータ) (2023-12-21T05:51:55Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - MaNtLE: Model-agnostic Natural Language Explainer [9.43206883360088]
モデルに依存しない自然言語説明器であるMaNtLEを導入し、複数の分類器の予測を解析する。
MaNtLEは、何千もの合成分類タスクでマルチタスクトレーニングを使用して、忠実な説明を生成する。
シミュレーションユーザスタディでは、平均して、MaNtLEの生成した説明は、LIMEやAnchorsの説明に比べて少なくとも11%忠実であることが示されている。
論文 参考訳(メタデータ) (2023-05-22T12:58:06Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Prompting Contrastive Explanations for Commonsense Reasoning Tasks [74.7346558082693]
大規模事前学習言語モデル(PLM)は、常識推論タスクにおいて、ほぼ人間に近い性能を達成することができる。
人間の解釈可能な証拠を生成するために、同じモデルを使う方法を示す。
論文 参考訳(メタデータ) (2021-06-12T17:06:13Z) - Search Methods for Sufficient, Socially-Aligned Feature Importance
Explanations with In-Distribution Counterfactuals [72.00815192668193]
特徴重要度(FI)推定は一般的な説明形式であり、テスト時に特定の入力特徴を除去することによって生じるモデル信頼度の変化を計算し、評価することが一般的である。
FIに基づく説明の未探索次元についていくつかの考察を行い、この説明形式に対する概念的および実証的な改善を提供する。
論文 参考訳(メタデータ) (2021-06-01T20:36:48Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z) - Evaluating Explainable AI: Which Algorithmic Explanations Help Users
Predict Model Behavior? [97.77183117452235]
我々は、モデル解釈性に対するアルゴリズム的説明の影響を分離するために、人体テストを実施している。
方法の有効性の明確な証拠はごく少数にみえる。
以上の結果から,説明がシミュラビリティにどのように影響するかの信頼性と包括的評価が得られた。
論文 参考訳(メタデータ) (2020-05-04T20:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。