論文の概要: Revisiting Methods for Finding Influential Examples
- arxiv url: http://arxiv.org/abs/2111.04683v1
- Date: Mon, 8 Nov 2021 18:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 15:47:49.182516
- Title: Revisiting Methods for Finding Influential Examples
- Title(参考訳): インフルエンシャルな例を見つけるための再考手法
- Authors: Karthikeyan K, Anders S{\o}gaard
- Abstract要約: テスト時間決定に有効なトレーニング例を見つける方法が提案されている。
本稿では,これらの手法がすべて不安定であることを示す。
本稿では, 毒素攻撃を検知する能力によって, このような説明を評価することを提案する。
- 参考スコア(独自算出の注目度): 2.094022863940315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several instance-based explainability methods for finding influential
training examples for test-time decisions have been proposed recently,
including Influence Functions, TraceIn, Representer Point Selection, Grad-Dot,
and Grad-Cos. Typically these methods are evaluated using LOO influence (Cook's
distance) as a gold standard, or using various heuristics. In this paper, we
show that all of the above methods are unstable, i.e., extremely sensitive to
initialization, ordering of the training data, and batch size. We suggest that
this is a natural consequence of how in the literature, the influence of
examples is assumed to be independent of model state and other examples -- and
argue it is not. We show that LOO influence and heuristics are, as a result,
poor metrics to measure the quality of instance-based explanations, and instead
propose to evaluate such explanations by their ability to detect poisoning
attacks. Further, we provide a simple, yet effective baseline to improve all of
the above methods and show how it leads to very significant improvements on
downstream tasks.
- Abstract(参考訳): 最近、インフルエンス関数、TraceIn、Representer Point Selection、Grad-Dot、Grad-Cosなど、テスト時間決定に影響を及ぼすトレーニング例を見つけるためのインスタンスベースの説明可能性メソッドが提案されている。
通常、これらの手法はLOOの影響(クック距離)を金の標準として評価するか、あるいは様々なヒューリスティックを用いて評価される。
本稿では,これらすべての手法が不安定であることを示す。すなわち,初期化やトレーニングデータの順序付け,バッチサイズに非常に敏感である。
これは、文献における例の影響がモデル状態や他の例とは無関係であると仮定した自然な結果であり、そうではないと論じている。
その結果,LOOの影響とヒューリスティックス(ヒューリスティックス,ヒューリスティックス,ヒューリスティックス)は,インスタンスベースの説明の質を測る指標が乏しいことを示し,毒素攻撃を検出する能力によってその説明を評価することを提案する。
さらに,上述の手法をすべて改善し,下流タスクの大幅な改善を実現するための,シンプルで効果的なベースラインも提供する。
関連論文リスト
- Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
本稿では,既存の勾配法を改良し,大規模に効果的に機能させる。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - The Susceptibility of Example-Based Explainability Methods to Class Outliers [3.748789746936121]
本研究は,ブラックボックス機械学習モデルにおける実例に基づく説明可能性手法の有効性に及ぼすクラスアウトレーヤの影響について検討する。
本稿では,特に実例に基づく手法の正当性や妥当性などの既存の説明可能性評価尺度を改訂し,新しい尺度,識別可能性を導入する。
これらの指標を用いて、クラス外れを抑えようとする者を含む、現在の例に基づく説明可能性手法の欠点を強調した。
論文 参考訳(メタデータ) (2024-07-30T09:20:15Z) - Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment
Effect Estimation [137.3520153445413]
下流推論に重点を置く因果発見手法の評価において,顕著なギャップが存在する。
我々は,GFlowNetsに基づく新たな手法を含む,確立された7つの基本因果探索手法を評価する。
研究の結果,研究対象のアルゴリズムのいくつかは,多種多様なATEモードを効果的に捉えることができることがわかった。
論文 参考訳(メタデータ) (2023-07-11T02:58:10Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - On Sample Based Explanation Methods for NLP:Efficiency, Faithfulness,
and Semantic Evaluation [23.72825603188359]
我々は、任意のテキストシーケンスを説明単位として許容することにより、説明の解釈可能性を向上させることができる。
本研究では,人間による説明の判断に適合する意味に基づく評価指標を提案する。
論文 参考訳(メタデータ) (2021-06-09T00:49:56Z) - An Empirical Comparison of Instance Attribution Methods for NLP [62.63504976810927]
本研究は,トレーニングサンプルの重要性に関して,異なるインスタンス属性が一致した度合いを評価する。
単純な検索メソッドは、グラデーションベースの方法によって識別されたものと異なるトレーニングインスタンスを生成する。
論文 参考訳(メタデータ) (2021-04-09T01:03:17Z) - RelatIF: Identifying Explanatory Training Examples via Relative
Influence [13.87851325824883]
インフルエンス関数を使用して、関連するトレーニング例を特定し、機械学習モデルの予測を"説明"することを望んでいます。
本稿では,グローバルな影響に制約を課す最適化目標を用いて,関連するトレーニング事例を選択するための新しい基準であるRelatIFを紹介する。
経験的評価では、RelatIFで返される例は影響関数を用いた例に比べて直感的であることが判明した。
論文 参考訳(メタデータ) (2020-03-25T20:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。