論文の概要: To what extent do human explanations of model behavior align with actual
model behavior?
- arxiv url: http://arxiv.org/abs/2012.13354v1
- Date: Thu, 24 Dec 2020 17:40:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 12:06:16.813921
- Title: To what extent do human explanations of model behavior align with actual
model behavior?
- Title(参考訳): モデル行動の人間の説明は、実際のモデル行動とどの程度一致しているか?
- Authors: Grusha Prasad and Yixin Nie and Mohit Bansal and Robin Jia and Douwe
Kiela and Adina Williams
- Abstract要約: モデル推論決定の人間による説明が、モデルが実際にこれらの決定を下す方法と一致する程度を調べた。
自然言語の人間の説明が入力語に対するモデル感度とどのように一致するかを定量化する2つのアライメント指標を定義した。
モデルと人間の説明との整合は、NLI上のモデルの精度によって予測されないことが判明した。
- 参考スコア(独自算出の注目度): 91.67905128825402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the increasingly prominent role NLP models (will) play in our lives, it
is important to evaluate models on their alignment with human expectations of
how models behave. Using Natural Language Inference (NLI) as a case study, we
investigated the extent to which human-generated explanations of models'
inference decisions align with how models actually make these decisions. More
specifically, we defined two alignment metrics that quantify how well natural
language human explanations align with model sensitivity to input words, as
measured by integrated gradients. Then, we evaluated six different transformer
models (the base and large versions of BERT, RoBERTa and ELECTRA), and found
that the BERT-base model has the highest alignment with human-generated
explanations, for both alignment metrics. Additionally, the base versions of
the models we surveyed tended to have higher alignment with human-generated
explanations than their larger counterparts, suggesting that increasing the
number model parameters could result in worse alignment with human
explanations. Finally, we find that a model's alignment with human explanations
is not predicted by the model's accuracy on NLI, suggesting that accuracy and
alignment are orthogonal, and both are important ways to evaluate models.
- Abstract(参考訳): 生活の中でNLPモデルが果たす役割がますます顕著になっていることを考えると、モデルがどのように振る舞うかという人間の期待に沿ったモデルを評価することが重要です。
自然言語推論(NLI)をケーススタディとして,モデルの推論決定に関する人間による説明が,モデルが実際に意思決定を行う方法とどのように一致しているかを検討した。
より具体的には、自然言語による人間の説明が入力語に対するモデルの感度にどのように適合するかを、統合勾配によって測定する2つのアライメントメトリクスを定義した。
そして、6種類の変圧器モデル(BERT, RoBERTa, ELECTRAのベースおよび大版)を評価し、BERTベースモデルが、両者のアライメント指標に対して、人為的な説明と最高の整合性を持つことを発見した。
さらに,調査したモデルの基本バージョンは,従来のモデルよりも人間の生成した説明との整合度が高い傾向にあり,モデルパラメータの増加が人間の説明との整合を悪化させる可能性が示唆された。
最後に,nli上のモデルの精度からモデルのアライメントが予測されないことを見出し,精度とアライメントが直交し,両者がモデルを評価する上で重要な方法であることを示す。
関連論文リスト
- Did the Models Understand Documents? Benchmarking Models for Language
Understanding in Document-Level Relation Extraction [2.4665182280122577]
近年,ドキュメントレベルの関係抽出 (DocRE) が注目されている。
モデルはDocREで一貫したパフォーマンス向上を達成するが、根底にある決定ルールはまだ検討されていない。
本稿では,この質問に答える第一歩として,モデルを包括的に評価する新たな視点を紹介する。
論文 参考訳(メタデータ) (2023-06-20T08:52:05Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - On the Lack of Robust Interpretability of Neural Text Classifiers [14.685352584216757]
本研究では,事前学習したトランスフォーマーエンコーダをベースとしたニューラルテキスト分類器の解釈の堅牢性を評価する。
どちらのテストも、期待された行動から驚くほど逸脱しており、実践者が解釈から引き出す可能性のある洞察の程度について疑問を呈している。
論文 参考訳(メタデータ) (2021-06-08T18:31:02Z) - Explainable AI by BAPC -- Before and After correction Parameter
Comparison [0.0]
より単純な'ベース'モデルを補正するAIモデルのための局所的なサロゲートは、AI予測の説明を得るための分析方法を表す。
AIモデルは線形モデルの残差誤差を近似し、その説明は解釈可能な基底モデルのパラメータの変化の観点から定式化される。
論文 参考訳(メタデータ) (2021-03-12T09:03:51Z) - PSD2 Explainable AI Model for Credit Scoring [0.0]
本研究の目的は、信用リスクモデルの予測精度を向上させるための高度な分析手法の開発と試験である。
このプロジェクトは、銀行関連のデータベースに説明可能な機械学習モデルを適用することに焦点を当てている。
論文 参考訳(メタデータ) (2020-11-20T12:12:38Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z) - Are Visual Explanations Useful? A Case Study in Model-in-the-Loop
Prediction [49.254162397086006]
画像に基づく年齢予測課題における視覚的満足度に基づく説明について検討する。
モデル予測の提示により,人間の精度が向上することが判明した。
しかし、様々な種類の説明は、人間の正確さやモデルの信頼を著しく変えることができない。
論文 参考訳(メタデータ) (2020-07-23T20:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。