論文の概要: Influence-based Attributions can be Manipulated
- arxiv url: http://arxiv.org/abs/2409.05208v4
- Date: Mon, 07 Oct 2024 03:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:41:52.611196
- Title: Influence-based Attributions can be Manipulated
- Title(参考訳): 影響に基づく属性を操作できる
- Authors: Chhavi Yadav, Ruihan Wu, Kamalika Chaudhuri,
- Abstract要約: 影響に基づく属性は、敵対者によってテクスト的に改ざんされる可能性があることを示す。
我々の研究は、敵の状況における影響に基づく属性の信頼性に関する疑問を提起する。
- 参考スコア(独自算出の注目度): 26.579158405412127
- License:
- Abstract: Influence Functions are a standard tool for attributing predictions to training data in a principled manner and are widely used in applications such as data valuation and fairness. In this work, we present realistic incentives to manipulate influence-based attributions and investigate whether these attributions can be \textit{systematically} tampered by an adversary. We show that this is indeed possible for logistic regression models trained on ResNet feature embeddings and standard tabular fairness datasets and provide efficient attacks with backward-friendly implementations. Our work raises questions on the reliability of influence-based attributions in adversarial circumstances. Code is available at : \url{https://github.com/infinite-pursuits/influence-based-attributions-can-be-manipulated}
- Abstract(参考訳): インフルエンス関数は,データ評価や公正性といったアプリケーションで広く使用されている,データトレーニングに予測を関連付けるための標準ツールである。
本研究では、影響に基づく属性を操作するための現実的なインセンティブを提示し、これらの属性が敵によって改ざんされる可能性があるかどうかを検討する。
ResNetの機能埋め込みと標準的な表の公正度データセットに基づいてトレーニングされたロジスティック回帰モデルに対して、これは実際に可能であり、後方対応の実装による効率的な攻撃を提供する。
我々の研究は、敵の状況における影響に基づく属性の信頼性に関する疑問を提起する。
コードは以下の通りである。 \url{https://github.com/infinite-pursuits/influence-based-attributions-can-be-manipulated}
関連論文リスト
- Revisiting the Fragility of Influence Functions [1.4699455652461724]
残余が損失に与える影響を近似した影響関数は、ディープラーニングモデルの正確性や忠実性を検証するために提案されている。
ここでは、影響関数の検証に使用される主要な指標を分析する。
以上の結果から,検証作業が不明確になる可能性が示唆された。
論文 参考訳(メタデータ) (2023-03-22T21:36:56Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - The Invariant Ground Truth of Affect [2.570570340104555]
感情の基底的真理は、感情の主観的な性質とそのラベルに固有のバイアスを意図せずに含んでいる影響ラベルに起因している。
本稿では、因果関係論の側面を感情計算に伝達することにより、影響の信頼性の高い基礎的真理を得る方法について再検討する。
我々は、情緒的コーパスにおけるアウトリーチの検出と、参加者やタスク間で堅牢な影響モデルの構築に、因果関係にインスパイアされた手法を採用している。
論文 参考訳(メタデータ) (2022-10-14T08:26:01Z) - Understanding Instance-Level Impact of Fairness Constraints [12.866655972682254]
公正な制約が課された場合のトレーニング例の影響について検討する。
重みのあるデータ例のサブセットでのトレーニングは、精度のトレードオフによって公平性違反の低減につながることが分かっています。
論文 参考訳(メタデータ) (2022-06-30T17:31:33Z) - Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.74095927462]
本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。
IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T10:40:59Z) - Efficient Estimation of Influence of a Training Instance [56.29080605123304]
本稿では,ニューラルネットワークモデルに対するトレーニングインスタンスの影響を効率的に推定する手法を提案する。
このメソッドは、サブネットワークをゼロマスクし、サブネットワークが各トレーニングインスタンスを学習するのを防ぎます。
提案手法は, 学習の影響を捉え, 誤り予測の解釈性を高め, 一般化改善のための訓練データセットをクリーン化できることを実証する。
論文 参考訳(メタデータ) (2020-12-08T04:31:38Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - From Predictions to Decisions: Using Lookahead Regularization [28.709041337894107]
ユーザアクションを予測することで、予測モデルが結果を改善するアクションを誘発するように促すルックアヘッド正規化を導入する。
本稿では,本手法の有効性を示す実データおよび合成データに関する実験結果について報告する。
論文 参考訳(メタデータ) (2020-06-20T19:23:03Z) - RelatIF: Identifying Explanatory Training Examples via Relative
Influence [13.87851325824883]
インフルエンス関数を使用して、関連するトレーニング例を特定し、機械学習モデルの予測を"説明"することを望んでいます。
本稿では,グローバルな影響に制約を課す最適化目標を用いて,関連するトレーニング事例を選択するための新しい基準であるRelatIFを紹介する。
経験的評価では、RelatIFで返される例は影響関数を用いた例に比べて直感的であることが判明した。
論文 参考訳(メタデータ) (2020-03-25T20:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。