論文の概要: ALMANACS: A Simulatability Benchmark for Language Model Explainability
- arxiv url: http://arxiv.org/abs/2312.12747v2
- Date: Sun, 02 Feb 2025 09:16:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:08:19.070331
- Title: ALMANACS: A Simulatability Benchmark for Language Model Explainability
- Title(参考訳): ALMANACS: 言語モデルの説明可能性のためのシミュラビリティベンチマーク
- Authors: Edmund Mills, Shiye Su, Stuart Russell, Scott Emmons,
- Abstract要約: 言語モデル説明可能性ベンチマークであるALMANACSを提案する。
AlMANACSは、シミュラビリティに関する説明可能性の手法、すなわち、説明が新しい入力の振る舞い予測をいかに改善するかをスコアする。
ALMANACSは、他の言語モデルを使用して説明に基づいて振る舞いを予測することで、完全に自動化されたベンチマークである。
- 参考スコア(独自算出の注目度): 9.037709044327066
- License:
- Abstract: How do we measure the efficacy of language model explainability methods? While many explainability methods have been developed, they are typically evaluated on bespoke tasks, preventing an apples-to-apples comparison. To help fill this gap, we present ALMANACS, a language model explainability benchmark. ALMANACS scores explainability methods on simulatability, i.e., how well the explanations improve behavior prediction on new inputs. The ALMANACS scenarios span twelve safety-relevant topics such as ethical reasoning and advanced AI behaviors; they have idiosyncratic premises to invoke model-specific behavior; and they have a train-test distributional shift to encourage faithful explanations. By using another language model to predict behavior based on the explanations, ALMANACS is a fully automated benchmark. While not a replacement for human evaluations, we aim for ALMANACS to be a complementary, automated tool that allows for fast, scalable evaluation. Using ALMANACS, we evaluate counterfactual, rationalization, attention, and Integrated Gradients explanations. Our results are sobering: when averaged across all topics, no explanation method outperforms the explanation-free control. We conclude that despite modest successes in prior work, developing an explanation method that aids simulatability in ALMANACS remains an open challenge.
- Abstract(参考訳): 言語モデル説明可能性手法の有効性をどう測定するか。
多くの説明可能性法が開発されているが、一般的にはbespokeタスクで評価され、リンゴとアプレットの比較が妨げられている。
このギャップを埋めるために、言語モデル説明可能性ベンチマークであるALMANACSを紹介する。
ALMANACSは、シミュラビリティに関する説明可能性の手法、すなわち、説明が新しい入力の振る舞い予測をいかに改善するかを評価する。
ALMANACSのシナリオは、倫理的推論や高度なAI行動など、12の安全関連トピック、モデル固有の振る舞いを呼び出すための慣用的な前提、忠実な説明を促進するための列車-テストの分散シフトにまたがっている。
ALMANACSは、他の言語モデルを使用して説明に基づいて振る舞いを予測することで、完全に自動化されたベンチマークである。
人間の評価に代わるものではないが、高速でスケーラブルな評価を可能にする補完的で自動化されたツールとしてALMANACSを目指している。
ALMANACSを用いて, 反事実, 合理化, 注意, 統合的グラディエンスの説明を評価する。
全てのトピックで平均化されると、説明法が説明自由制御よりも優れているという結果が得られます。
ALMANACS におけるシミュラビリティを補助する説明手法の開発は, 先行研究でわずかに成功しているにもかかわらず, 未解決の課題である。
関連論文リスト
- QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。
ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。
我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文 参考訳(メタデータ) (2025-02-04T18:58:31Z) - An Ontology-Enabled Approach For User-Centered and Knowledge-Enabled Explanations of AI Systems [0.3480973072524161]
説明可能性に関する最近の研究は、AIモデルやモデル説明可能性の動作を説明することに重点を置いている。
この論文は、モデルとユーザ中心の説明可能性の間のギャップを埋めようとしている。
論文 参考訳(メタデータ) (2024-10-23T02:03:49Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - FIND: A Function Description Benchmark for Evaluating Interpretability
Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文 参考訳(メタデータ) (2023-09-07T17:47:26Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z) - Evaluating Explainable AI: Which Algorithmic Explanations Help Users
Predict Model Behavior? [97.77183117452235]
我々は、モデル解釈性に対するアルゴリズム的説明の影響を分離するために、人体テストを実施している。
方法の有効性の明確な証拠はごく少数にみえる。
以上の結果から,説明がシミュラビリティにどのように影響するかの信頼性と包括的評価が得られた。
論文 参考訳(メタデータ) (2020-05-04T20:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。