論文の概要: Pair the Dots: Jointly Examining Training History and Test Stimuli for
Model Interpretability
- arxiv url: http://arxiv.org/abs/2010.06943v2
- Date: Sat, 31 Oct 2020 01:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 12:35:42.549022
- Title: Pair the Dots: Jointly Examining Training History and Test Stimuli for
Model Interpretability
- Title(参考訳): pair the dots: モデル解釈のためのトレーニング履歴とテスト刺激を共同で検討する
- Authors: Yuxian Meng, Chun Fan, Zijun Sun, Eduard Hovy, Fei Wu and Jiwei Li
- Abstract要約: モデルからの予測は、学習履歴とテスト刺激の組み合わせによって行われる。
モデルの予測を解釈する既存の方法は、テスト刺激または学習履歴の1つの側面しかキャプチャできない。
本研究では,学習履歴とテスト刺激を共同で調べることで,モデルの予測を解釈しやすくするための,効率的かつ異なるアプローチを提案する。
- 参考スコア(独自算出の注目度): 44.60486560836836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Any prediction from a model is made by a combination of learning history and
test stimuli. This provides significant insights for improving model
interpretability: {\it because of which part(s) of which training example(s),
the model attends to which part(s) of a test example}. Unfortunately, existing
methods to interpret a model's predictions are only able to capture a single
aspect of either test stimuli or learning history, and evidences from both are
never combined or integrated. In this paper, we propose an efficient and
differentiable approach to make it feasible to interpret a model's prediction
by jointly examining training history and test stimuli. Test stimuli is first
identified by gradient-based methods, signifying {\it the part of a test
example that the model attends to}. The gradient-based saliency scores are then
propagated to training examples using influence functions to identify {\it
which part(s) of which training example(s)} make the model attends to the test
stimuli. The system is differentiable and time efficient: the adoption of
saliency scores from gradient-based methods allows us to efficiently trace a
model's prediction through test stimuli, and then back to training examples
through influence functions. We demonstrate that the proposed methodology
offers clear explanations about neural model decisions, along with being useful
for performing error analysis, crafting adversarial examples and fixing
erroneously classified examples.
- Abstract(参考訳): モデルからのあらゆる予測は、学習履歴とテスト刺激の組み合わせによって行われる。
これは、モデルの解釈可能性を改善するための重要な洞察を提供する: トレーニング例のどの部分(s)が、テスト例のどの部分(s)にモデルが従うかである。
残念ながら、モデルの予測を解釈する既存の方法は、テスト刺激または学習履歴の1つの側面のみを捉えることができ、両方の証拠は結合または統合されない。
本稿では,学習履歴とテスト刺激を共同で調べることで,モデルの予測を解釈しやすくするための,効率的かつ異なるアプローチを提案する。
テスト刺激はまず勾配に基づく方法によって同定され、モデルが従うテスト例の一部を意味する。
次に、勾配に基づく塩分濃度スコアを影響関数を用いてトレーニング例に伝達し、トレーニング例(s)がモデルにテスト刺激を伴わせる部分を特定する。
このシステムは微分可能で時間効率が良い: 勾配に基づく手法から塩分スコアを採用することで、テスト刺激を通じてモデルの予測を効率的に追跡し、影響関数を通じてトレーニング例に戻ることができる。
提案手法は, 誤り分析, 逆行例の作成, 誤分類例の修正に有用であるとともに, ニューラルモデル決定に関する明確な説明を提供する。
関連論文リスト
- Revealing Model Biases: Assessing Deep Neural Networks via Recovered
Sample Analysis [9.05607520128194]
本稿では、深層ニューラルネットワーク(DNN)がトレーニングサンプルの第一概念に依存しているかどうかを簡易かつ費用対効果で評価する手法を提案する。
提案手法は,テストや一般化のサンプルを一切必要とせず,訓練対象モデルのパラメータとマージンにあるトレーニングデータのみを必要とする。
論文 参考訳(メタデータ) (2023-06-10T11:20:04Z) - Guide the Learner: Controlling Product of Experts Debiasing Method Based
on Token Attribution Similarities [17.082695183953486]
一般的な回避策は、二次バイアスモデルに基づいてトレーニング例を再重み付けすることで、堅牢なモデルをトレーニングすることである。
ここでは、バイアスドモデルが機能をショートカットする、という前提がある。
本稿では,主要モデルと偏りのあるモデル属性スコアの類似性を,プロダクト・オブ・エキスパートズ・ロス関数に組み込んだ微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-02-06T15:21:41Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Instance-Based Neural Dependency Parsing [56.63500180843504]
依存関係解析のための解釈可能な推論プロセスを持つニューラルモデルを開発する。
私たちのモデルはインスタンスベースの推論を採用しており、トレーニングセットのエッジと比較することで、依存関係のエッジを抽出し、ラベル付けします。
論文 参考訳(メタデータ) (2021-09-28T05:30:52Z) - Empowering Language Understanding with Counterfactual Reasoning [141.48592718583245]
本稿では,反現実的思考を模倣した反現実的推論モデルを提案する。
特に,各実例に対して代表的対実サンプルを生成する生成モジュールを考案し,その対実サンプルと実例サンプルを比較してモデル予測を振り返るレトロスペクティブモジュールを考案した。
論文 参考訳(メタデータ) (2021-06-06T06:36:52Z) - Building Reliable Explanations of Unreliable Neural Networks: Locally
Smoothing Perspective of Model Interpretation [0.0]
本稿では,ニューラルネットワークの予測を確実に説明するための新しい手法を提案する。
本手法は,モデル予測の損失関数における平滑な景観の仮定に基づいて構築される。
論文 参考訳(メタデータ) (2021-03-26T08:52:11Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - An interpretable neural network model through piecewise linear
approximation [7.196650216279683]
本稿では,線形成分と非線形成分を組み合わせたハイブリッド解釈モデルを提案する。
第1のコンポーネントは、モデルの表現性を高めるために、一括線形近似による明示的な特徴貢献を記述する。
他のコンポーネントは多層パーセプトロンを使用して特徴相互作用と暗黙の非線形性をキャプチャし、予測性能を向上させる。
論文 参考訳(メタデータ) (2020-01-20T14:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。