論文の概要: Explaining Black Box Predictions and Unveiling Data Artifacts through
Influence Functions
- arxiv url: http://arxiv.org/abs/2005.06676v1
- Date: Thu, 14 May 2020 00:45:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 04:21:46.496262
- Title: Explaining Black Box Predictions and Unveiling Data Artifacts through
Influence Functions
- Title(参考訳): 影響関数によるブラックボックス予測とデータアーチファクトの展開
- Authors: Xiaochuang Han, Byron C. Wallace, Yulia Tsvetkov
- Abstract要約: 影響関数は、影響力のあるトレーニング例を特定することによって、モデルの判断を説明する。
本稿では,代表課題における影響関数と共通単語順応法の比較を行う。
我々は,学習データ中の成果物を明らかにすることができる影響関数に基づく新しい尺度を開発した。
- 参考スコア(独自算出の注目度): 55.660255727031725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep learning models for NLP are notoriously opaque. This has
motivated the development of methods for interpreting such models, e.g., via
gradient-based saliency maps or the visualization of attention weights. Such
approaches aim to provide explanations for a particular model prediction by
highlighting important words in the corresponding input text. While this might
be useful for tasks where decisions are explicitly influenced by individual
tokens in the input, we suspect that such highlighting is not suitable for
tasks where model decisions should be driven by more complex reasoning. In this
work, we investigate the use of influence functions for NLP, providing an
alternative approach to interpreting neural text classifiers. Influence
functions explain the decisions of a model by identifying influential training
examples. Despite the promise of this approach, influence functions have not
yet been extensively evaluated in the context of NLP, a gap addressed by this
work. We conduct a comparison between influence functions and common
word-saliency methods on representative tasks. As suspected, we find that
influence functions are particularly useful for natural language inference, a
task in which 'saliency maps' may not have clear interpretation. Furthermore,
we develop a new quantitative measure based on influence functions that can
reveal artifacts in training data.
- Abstract(参考訳): 現代のNLPのディープラーニングモデルは不透明である。
これは、勾配に基づく塩分マップや注意重みの可視化など、そのようなモデルを解釈する手法の開発を動機付けた。
このようなアプローチは、対応する入力テキストで重要な単語を強調することで、特定のモデル予測の説明を提供することを目的としている。
これは入力中の個々のトークンによって決定が明示的に影響されるタスクに有用かもしれませんが、そのようなハイライトはより複雑な推論によってモデル決定が駆動されるべきタスクには適していないと思います。
本研究では,nlpに対する影響関数の使用について検討し,ニューラルテキスト分類器の解釈方法を提案する。
影響関数は、影響力のあるトレーニング例を特定することによって、モデルの判断を説明する。
このアプローチの約束にもかかわらず、NLPの文脈では影響関数はまだ広く評価されていない。
代表課題における影響関数と共通の単語保存法の比較を行った。
疑わしいことに,影響関数は自然言語推論において特に有用であり,このタスクでは「関係マップ」が明確な解釈を持たない可能性がある。
さらに,学習データのアーティファクトを明らかにすることができる影響関数に基づく新しい定量的尺度を開発した。
関連論文リスト
- Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
本稿では,テキスト・インフルエンス・ファンクション・フレームワークを開発することにより,このような課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Do Influence Functions Work on Large Language Models? [10.463762448166714]
影響関数は、個々のトレーニングデータポイントがモデルの予測に与える影響を定量化することを目的としている。
我々は,複数のタスクにまたがる影響関数を評価し,ほとんどの設定において不整合なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-09-30T06:50:18Z) - Studying Large Language Model Generalization with Influence Functions [29.577692176892135]
モデルパラメータ(とそれによる出力)は、トレーニングセットにシーケンスが追加された場合、どのように変化するのか?
我々はEigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC)近似を用いて、最大52億のパラメータを持つ大規模言語モデル(LLM)まで影響関数をスケールする。
本研究では, LLMの一般化パターンについて検討し, 影響パターンの空間性, スケールによる抽象化の増大, 数学とプログラミングの能力, 言語間一般化, ロールプレイング行動などを検討した。
論文 参考訳(メタデータ) (2023-08-07T04:47:42Z) - If Influence Functions are the Answer, Then What is the Question? [7.873458431535409]
影響関数は、モデルの学習パラメータに対する1つのトレーニングデータポイントの除去の効果を効率的に推定する。
影響推定は線形モデルの残余再トレーニングとよく一致しているが、最近の研究では、ニューラルネットワークではこのアライメントが不十分であることが示されている。
論文 参考訳(メタデータ) (2022-09-12T16:17:43Z) - A Functional Information Perspective on Model Interpretation [30.101107406343665]
この研究は、モデル解釈可能性の理論的な枠組みを示唆している。
機能的フィッシャー情報によって機能的エントロピーを束縛する対数ソボレフの不等式に依存している。
提案手法は,様々なデータ信号に対する既存の解釈可能性サンプリング手法を超越していることを示す。
論文 参考訳(メタデータ) (2022-06-12T09:24:45Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Influence Tuning: Demoting Spurious Correlations via Instance
Attribution and Instance-Driven Updates [26.527311287924995]
インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
制御された設定では、インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
論文 参考訳(メタデータ) (2021-10-07T06:59:46Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。