Fugu-MT 論文翻訳(概要): ALMANACS: A Simulatability Benchmark for Language Model Explainability

論文の概要: ALMANACS: A Simulatability Benchmark for Language Model Explainability

arxiv url: http://arxiv.org/abs/2312.12747v2
Date: Sun, 02 Feb 2025 09:16:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 15:57:52.954511
Title: ALMANACS: A Simulatability Benchmark for Language Model Explainability
Title（参考訳）: ALMANACS: 言語モデルの説明可能性のためのシミュラビリティベンチマーク
Authors: Edmund Mills, Shiye Su, Stuart Russell, Scott Emmons,
Abstract要約: 言語モデル説明可能性ベンチマークであるALMANACSを提案する。 AlMANACSは、シミュラビリティに関する説明可能性の手法、すなわち、説明が新しい入力の振る舞い予測をいかに改善するかをスコアする。 ALMANACSは、他の言語モデルを使用して説明に基づいて振る舞いを予測することで、完全に自動化されたベンチマークである。
参考スコア（独自算出の注目度）: 9.037709044327066
License: http://creativecommons.org/licenses/by/4.0/
Abstract: How do we measure the efficacy of language model explainability methods? While many explainability methods have been developed, they are typically evaluated on bespoke tasks, preventing an apples-to-apples comparison. To help fill this gap, we present ALMANACS, a language model explainability benchmark. ALMANACS scores explainability methods on simulatability, i.e., how well the explanations improve behavior prediction on new inputs. The ALMANACS scenarios span twelve safety-relevant topics such as ethical reasoning and advanced AI behaviors; they have idiosyncratic premises to invoke model-specific behavior; and they have a train-test distributional shift to encourage faithful explanations. By using another language model to predict behavior based on the explanations, ALMANACS is a fully automated benchmark. While not a replacement for human evaluations, we aim for ALMANACS to be a complementary, automated tool that allows for fast, scalable evaluation. Using ALMANACS, we evaluate counterfactual, rationalization, attention, and Integrated Gradients explanations. Our results are sobering: when averaged across all topics, no explanation method outperforms the explanation-free control. We conclude that despite modest successes in prior work, developing an explanation method that aids simulatability in ALMANACS remains an open challenge.
Abstract（参考訳）: 言語モデル説明可能性手法の有効性をどう測定するか。多くの説明可能性法が開発されているが、一般的にはbespokeタスクで評価され、リンゴとアプレットの比較が妨げられている。このギャップを埋めるために、言語モデル説明可能性ベンチマークであるALMANACSを紹介する。 ALMANACSは、シミュラビリティに関する説明可能性の手法、すなわち、説明が新しい入力の振る舞い予測をいかに改善するかを評価する。 ALMANACSのシナリオは、倫理的推論や高度なAI行動など、12の安全関連トピック、モデル固有の振る舞いを呼び出すための慣用的な前提、忠実な説明を促進するための列車-テストの分散シフトにまたがっている。 ALMANACSは、他の言語モデルを使用して説明に基づいて振る舞いを予測することで、完全に自動化されたベンチマークである。人間の評価に代わるものではないが、高速でスケーラブルな評価を可能にする補完的で自動化されたツールとしてALMANACSを目指している。 ALMANACSを用いて, 反事実, 合理化, 注意, 統合的グラディエンスの説明を評価する。全てのトピックで平均化されると、説明法が説明自由制御よりも優れているという結果が得られます。 ALMANACS におけるシミュラビリティを補助する説明手法の開発は, 先行研究でわずかに成功しているにもかかわらず, 未解決の課題である。

関連論文リスト

Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction [2.5450067638785945]
本研究は,ユーザが所定の刺激に対してどのようにコメントするかをモデルが予測するタスクである条件付きコメント予測(CCP)を紹介する。オープンウェイトな8Bモデル(Llama3.1、Qwen3、Ministral)を英語、ドイツ語、ルクセンブルク語のシナリオで評価する。
論文参考訳（メタデータ） (2026-02-26T08:40:21Z)
From Features to Actions: Explainability in Traditional and Agentic AI Systems [8.859406164948718]
我々は、帰属に基づく説明とトレースに基づく診断を比較することによって、静的とエージェント的説明のギャップを埋める。以上の結果から,エージェント設定のためのトレースベースの診断は,常に動作の破壊を局所化することがわかった。
論文参考訳（メタデータ） (2026-02-06T16:34:29Z)
Do LLM Self-Explanations Help Users Predict Model Behavior? Evaluating Counterfactual Simulatability with Pragmatic Perturbations [1.8772057593980798]
大規模言語モデル(LLM)は、言語化された自己説明を生成することができる。我々は,人間とLLMの審査員が,偽のフォローアップ質問に対するモデルの回答をどの程度予測できるかを評価する。
論文参考訳（メタデータ） (2026-01-07T10:13:26Z)
QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文参考訳（メタデータ） (2025-02-04T18:58:31Z)
An Ontology-Enabled Approach For User-Centered and Knowledge-Enabled Explanations of AI Systems [0.3480973072524161]
説明可能性に関する最近の研究は、AIモデルやモデル説明可能性の動作を説明することに重点を置いている。この論文は、モデルとユーザ中心の説明可能性の間のギャップを埋めようとしている。
論文参考訳（メタデータ） (2024-10-23T02:03:49Z)
Comparing zero-shot self-explanations with human rationales in text classification [5.32539007352208]
我々は,人間に対する妥当性とモデルに対する忠実性に関して,自己説明を評価した。自己説明は、LRPと比較して人間のアノテーションとより密に一致し、かつ、同等の忠実さを維持していることを示す。
論文参考訳（メタデータ） (2024-10-04T10:14:12Z)
Towards More Faithful Natural Language Explanation Using Multi-Level Contrastive Learning in VQA [7.141288053123662]
視覚的質問応答(VQA-NLE)における自然言語の説明は,ブラックボックスシステムに対するユーザの信頼を高めるために,自然言語文を生成することによって,モデルの意思決定プロセスを説明することを目的としている。既存のポストホックな説明は、人間の論理的推論と常に一致している訳ではなく、1) 誘惑的不満足な説明は、生成した説明が論理的に答えに繋がらないこと、2) 現実的不整合性、2) 画像上の事実を考慮せずに解答の反事実的説明を偽示すること、3) 意味的摂動の過敏性、モデルは、小さな摂動によって引き起こされる意味的変化を認識できないこと、である。
論文参考訳（メタデータ） (2023-12-21T05:51:55Z)
Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文参考訳（メタデータ） (2023-12-10T23:13:23Z)
FIND: A Function Description Benchmark for Evaluating Interpretability Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。 FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文参考訳（メタデータ） (2023-09-07T17:47:26Z)
Counterfactuals of Counterfactuals: a back-translation-inspired approach to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。本稿では,新しい逆翻訳に基づく評価手法を提案する。本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文参考訳（メタデータ） (2023-05-26T16:04:28Z)
MaNtLE: Model-agnostic Natural Language Explainer [9.43206883360088]
モデルに依存しない自然言語説明器であるMaNtLEを導入し、複数の分類器の予測を解析する。 MaNtLEは、何千もの合成分類タスクでマルチタスクトレーニングを使用して、忠実な説明を生成する。シミュレーションユーザスタディでは、平均して、MaNtLEの生成した説明は、LIMEやAnchorsの説明に比べて少なくとも11%忠実であることが示されている。
論文参考訳（メタデータ） (2023-05-22T12:58:06Z)
Explanation Selection Using Unlabeled Data for Chain-of-Thought Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文参考訳（メタデータ） (2023-02-09T18:02:34Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)
Prompting Contrastive Explanations for Commonsense Reasoning Tasks [74.7346558082693]
大規模事前学習言語モデル(PLM)は、常識推論タスクにおいて、ほぼ人間に近い性能を達成することができる。人間の解釈可能な証拠を生成するために、同じモデルを使う方法を示す。
論文参考訳（メタデータ） (2021-06-12T17:06:13Z)
Search Methods for Sufficient, Socially-Aligned Feature Importance Explanations with In-Distribution Counterfactuals [72.00815192668193]
特徴重要度(FI)推定は一般的な説明形式であり、テスト時に特定の入力特徴を除去することによって生じるモデル信頼度の変化を計算し、評価することが一般的である。 FIに基づく説明の未探索次元についていくつかの考察を行い、この説明形式に対する概念的および実証的な改善を提供する。
論文参考訳（メタデータ） (2021-06-01T20:36:48Z)
Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。 LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文参考訳（メタデータ） (2020-10-08T16:59:07Z)
Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior? [97.77183117452235]
我々は、モデル解釈性に対するアルゴリズム的説明の影響を分離するために、人体テストを実施している。方法の有効性の明確な証拠はごく少数にみえる。以上の結果から,説明がシミュラビリティにどのように影響するかの信頼性と包括的評価が得られた。
論文参考訳（メタデータ） (2020-05-04T20:35:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。