論文の概要: How do Decisions Emerge across Layers in Neural Models? Interpretation
with Differentiable Masking
- arxiv url: http://arxiv.org/abs/2004.14992v3
- Date: Tue, 2 Mar 2021 10:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:04:10.628907
- Title: How do Decisions Emerge across Layers in Neural Models? Interpretation
with Differentiable Masking
- Title(参考訳): ニューラルネットワークの層をまたぐ決定はどのように行われるか?
異なるマスキングによる解釈
- Authors: Nicola De Cao, Michael Schlichtkrull, Wilker Aziz, Ivan Titov
- Abstract要約: DiffMaskは、差分性を維持しながら入力のサブセットをマスクアウトすることを学ぶ。
入力トークンを包含または無視する決定は、中間隠蔽層に基づく単純なモデルで行われる。
これにより、属性のヒートマップをプロットするだけでなく、ネットワーク層間で意思決定がどのように形成されるかを分析することができます。
- 参考スコア(独自算出の注目度): 70.92463223410225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attribution methods assess the contribution of inputs to the model
prediction. One way to do so is erasure: a subset of inputs is considered
irrelevant if it can be removed without affecting the prediction. Though
conceptually simple, erasure's objective is intractable and approximate search
remains expensive with modern deep NLP models. Erasure is also susceptible to
the hindsight bias: the fact that an input can be dropped does not mean that
the model `knows' it can be dropped. The resulting pruning is over-aggressive
and does not reflect how the model arrives at the prediction. To deal with
these challenges, we introduce Differentiable Masking. DiffMask learns to
mask-out subsets of the input while maintaining differentiability. The decision
to include or disregard an input token is made with a simple model based on
intermediate hidden layers of the analyzed model. First, this makes the
approach efficient because we predict rather than search. Second, as with
probing classifiers, this reveals what the network `knows' at the corresponding
layers. This lets us not only plot attribution heatmaps but also analyze how
decisions are formed across network layers. We use DiffMask to study BERT
models on sentiment classification and question answering.
- Abstract(参考訳): 属性法はモデル予測に対する入力の寄与を評価する。
1つの方法は消去である:入力のサブセットは、予測に影響を与えることなく削除できる場合、無関係とみなされる。
概念的には単純ではあるが、消去の目的は難解であり、現代のディープNLPモデルでは近似探索は高価である。
消去は後見バイアスにも感受性がある: 入力を落とすことができるという事実は、モデルを ‘knows' にするという意味ではない。
結果として生じるプルーニングは過攻撃的であり、モデルが予測にどのように到着するかを反映していない。
これらの課題に対処するために,我々は差別化可能なマスキングを導入する。
DiffMaskは、差分性を維持しながら入力のサブセットをマスクアウトすることを学ぶ。
入力トークンを包含または無視する決定は、解析されたモデルの中間的な隠蔽層に基づいて単純なモデルでなされる。
まず、検索ではなく予測するので、このアプローチは効率的です。
第二に、探索型分類器と同様に、ネットワークが対応するレイヤで何を「知識」しているかを明らかにする。
これにより、帰属ヒートマップをプロットするだけでなく、ネットワーク層間で意思決定がどのように形成されるかを分析することができます。
DiffMaskを用いて、感情分類と質問応答に関するBERTモデルの研究を行う。
関連論文リスト
- SMOOT: Saliency Guided Mask Optimized Online Training [3.024318849346373]
Saliency-Guided Training (SGT) 手法は、出力に基づいてモデルのトレーニングで顕著な特徴を強調しようとする。
SGTは入力を部分的にマスキングすることで、モデルの最終的な結果をより解釈できるようにする。
本稿では,トレーニング中の入力,精度,モデル損失に基づいて,マスク画像の最適個数を推定する手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T19:41:49Z) - Confidence-Based Model Selection: When to Take Shortcuts for
Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。
我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-06-19T18:48:15Z) - Towards Improved Input Masking for Convolutional Neural Networks [66.99060157800403]
層マスキングと呼ぶCNNのための新しいマスキング手法を提案する。
本手法は,マスク形状や色がモデル出力に与える影響を排除あるいは最小化することができることを示す。
また,マスクの形状がクラスに関する情報を漏洩させる可能性を示し,クラス関連特徴に対するモデル依存度の推定に影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2022-11-26T19:31:49Z) - Interpretations Steered Network Pruning via Amortized Inferred Saliency
Maps [85.49020931411825]
限られたリソースを持つエッジデバイスにこれらのモデルをデプロイするには、畳み込みニューラルネットワーク(CNN)圧縮が不可欠である。
本稿では,新しい視点からチャネルプルーニング問題に対処するために,モデルの解釈を活用して,プルーニング過程を解析する手法を提案する。
本研究では,実時間スムーズなスムーズなスムーズなスムーズなマスク予測を行うセレクタモデルを導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2022-09-07T01:12:11Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Thought Flow Nets: From Single Predictions to Trains of Model Thought [39.619001911390804]
人間が複雑な問題を解くと、すぐに決定が下されることはめったにない。
その代わり、彼らは直感的な決定から始まり、間違いを見つけ、矛盾を解決し、異なる仮説の間を飛び交う。
論文 参考訳(メタデータ) (2021-07-26T13:56:37Z) - PointMask: Towards Interpretable and Bias-Resilient Point Cloud
Processing [16.470806722781333]
PointMaskは、ポイントクラウドモデルにおける属性に対する、モデルに依存しない解釈可能なインフォメーション・ブートネックアプローチである。
任意のモデルとPointMask層を結合することで、入力空間の点を識別し、予測スコアに最も寄与することを示す。
論文 参考訳(メタデータ) (2020-07-09T03:06:06Z) - Differentiable Language Model Adversarial Attacks on Categorical
Sequence Classifiers [0.0]
敵対的攻撃パラダイムは、ディープラーニングモデルの脆弱性の様々なシナリオを探索する。
本研究では,言語モデルの微調整を,敵対的攻撃のジェネレータとして利用する。
我々のモデルは、銀行取引、電子健康記録、NLPデータセットに関する多様なデータセットに対して機能する。
論文 参考訳(メタデータ) (2020-06-19T11:25:36Z) - Auditing and Debugging Deep Learning Models via Decision Boundaries:
Individual-level and Group-level Analysis [0.0]
深層学習モデルの説明、監査、デバッグにはフリップポイントを使用します。
フリップポイントは、2つの出力クラスの境界にある任意の点である。
機械学習のソーシャルな応用に使用される標準データセットに基づいて訓練されたモデルをいくつか調べて,本手法を実証する。
論文 参考訳(メタデータ) (2020-01-03T01:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。