論文の概要: Shared Interest: Large-Scale Visual Analysis of Model Behavior by
Measuring Human-AI Alignment
- arxiv url: http://arxiv.org/abs/2107.09234v1
- Date: Tue, 20 Jul 2021 02:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 14:56:35.839899
- Title: Shared Interest: Large-Scale Visual Analysis of Model Behavior by
Measuring Human-AI Alignment
- Title(参考訳): 共有関心:人間-AIアライメント測定によるモデル行動の大規模視覚分析
- Authors: Angie Boggust, Benjamin Hoover, Arvind Satyanarayan, Hendrik Strobelt
- Abstract要約: 健全性(Saliency)は、モデル出力における入力特徴の重要性を特定する技術である。
共有興味:人間の注釈付き真実と唾液度を比較するための指標のセットを提示する。
モデルの信頼性に対する信頼を急速に発展または失うために、Shared Interestがどのように使用できるかを示す。
- 参考スコア(独自算出の注目度): 15.993648423884466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Saliency methods -- techniques to identify the importance of input features
on a model's output -- are a common first step in understanding neural network
behavior. However, interpreting saliency requires tedious manual inspection to
identify and aggregate patterns in model behavior, resulting in ad hoc or
cherry-picked analysis. To address these concerns, we present Shared Interest:
a set of metrics for comparing saliency with human annotated ground truths. By
providing quantitative descriptors, Shared Interest allows ranking, sorting,
and aggregation of inputs thereby facilitating large-scale systematic analysis
of model behavior. We use Shared Interest to identify eight recurring patterns
in model behavior including focusing on a sufficient subset of ground truth
features or being distracted by contextual features. Working with
representative real-world users, we show how Shared Interest can be used to
rapidly develop or lose trust in a model's reliability, uncover issues that are
missed in manual analyses, and enable interactive probing of model behavior.
- Abstract(参考訳): モデルのアウトプットにおける入力機能の重要性を識別するサリエンシーメソッドは、ニューラルネットワークの動作を理解するための一般的な第一歩です。
しかし, モデル行動のパターンを識別・集約するためには, 面倒な手作業による検査が必要である。
これらの懸念に対処するため、私たちは、人間の注釈付き真実と唾液度を比較するための指標であるShared Interestを紹介した。
定量的記述子を提供することで、Shared Interestは入力のランク付け、ソート、集約を可能にし、モデル行動の大規模な体系的解析を容易にする。
共有興味(Shared Interest)は、基礎となる真実の特徴の十分なサブセットに焦点を当てたり、文脈的特徴に気を取られたりするなど、モデル行動における8つの繰り返しパターンを特定するために使われます。
実世界の代表的なユーザと協力することで,モデルの信頼性に対する信頼を急速に発展あるいは失うこと,手作業による分析で見落としている問題を明らかにすること,モデルの振る舞いをインタラクティブに検出することを可能にすること,などが期待できる。
関連論文リスト
- DISCO: DISCovering Overfittings as Causal Rules for Text Classification Models [6.369258625916601]
ポストホックの解釈可能性法は、モデルの意思決定プロセスを完全に捉えるのに失敗する。
本稿では,グローバルなルールベースの説明を見つけるための新しい手法であるdisCOを紹介する。
DISCOは対話的な説明をサポートし、人間の検査者がルールベースの出力で突発的な原因を区別できるようにする。
論文 参考訳(メタデータ) (2024-11-07T12:12:44Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Causal Analysis for Robust Interpretability of Neural Networks [0.2519906683279152]
我々は、事前学習されたニューラルネットワークの因果効果を捉えるための頑健な介入に基づく手法を開発した。
分類タスクで訓練された視覚モデルに本手法を適用した。
論文 参考訳(メタデータ) (2023-05-15T18:37:24Z) - Rethinking interpretation: Input-agnostic saliency mapping of deep
visual classifiers [28.28834523468462]
Saliencyメソッドは、入力特徴をモデル出力に寄与させることで、ポストホックモデルの解釈を提供する。
入力特異性マッピングは本質的に誤解を招く特徴の帰属に影響を受けやすいことを示す。
本稿では,モデルが持つ高次特徴をその出力に対して計算的に推定する,入力非依存のサリエンシマッピングの新たな視点を紹介する。
論文 参考訳(メタデータ) (2023-03-31T06:58:45Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Refining Neural Networks with Compositional Explanations [31.84868477264624]
本稿では,モデルの失敗事例に関する人為的な構成説明を収集し,学習モデルの改良を提案する。
提案手法が2つのテキスト分類タスクに有効であることを示す。
論文 参考訳(メタデータ) (2021-03-18T17:48:54Z) - Intuitively Assessing ML Model Reliability through Example-Based
Explanations and Editing Model Inputs [19.09848738521126]
解釈可能性メソッドは、機械学習モデルの能力に対する信頼の構築と理解を支援することを目的とする。
モデル信頼性をより直感的に評価するための2つのインターフェースモジュールを紹介します。
論文 参考訳(メタデータ) (2021-02-17T02:41:32Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。