論文の概要: Influence-based Attributions can be Manipulated
- arxiv url: http://arxiv.org/abs/2409.05208v1
- Date: Sun, 8 Sep 2024 19:52:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 16:58:34.065772
- Title: Influence-based Attributions can be Manipulated
- Title(参考訳): 影響に基づく属性を操作できる
- Authors: Chhavi Yadav, Ruihan Wu, Kamalika Chaudhuri,
- Abstract要約: 我々は、影響に基づく属性を操作するための現実的なインセンティブを提示し、これらの属性が敵によって体系的に妨げられるかどうかを調査する。
我々の研究は、敵対的な状況下での影響力に基づく属性の信頼性に関する疑問を提起する。
- 参考スコア(独自算出の注目度): 26.579158405412127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Influence Functions are a standard tool for attributing predictions to training data in a principled manner and are widely used in applications such as data valuation and fairness. In this work, we present realistic incentives to manipulate influencebased attributions and investigate whether these attributions can be systematically tampered by an adversary. We show that this is indeed possible and provide efficient attacks with backward-friendly implementations. Our work raises questions on the reliability of influence-based attributions under adversarial circumstances.
- Abstract(参考訳): インフルエンス関数は,データ評価や公正性といったアプリケーションで広く使用されている,データトレーニングに予測を関連付けるための標準ツールである。
本研究では、影響に基づく属性を操作するための現実的なインセンティブを提示し、これらの属性が敵によって体系的に妨げられるかどうかを検討する。
これは本当に可能であり、後方フレンドリーな実装で効率的な攻撃を提供する。
我々の研究は、敵対的な状況下での影響力に基づく属性の信頼性に関する疑問を提起する。
関連論文リスト
- Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
本稿では,テキスト・インフルエンス・ファンクション・フレームワークを開発することにより,このような課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Causal Action Influence Aware Counterfactual Data Augmentation [23.949113120847507]
我々は,オンライン環境のインタラクションにアクセスすることなく,固定データセットから合成トランジションを生成可能なデータ拡張手法であるCAIACを提案する。
因果的影響を定量化するための原理的手法を利用することで、状態空間の$itaction$-unffected部分を交換することで、反ファクト的推論を行うことができる。
これにより、分散シフトに対するオフライン学習アルゴリズムの堅牢性が大幅に向上する。
論文 参考訳(メタデータ) (2024-05-29T09:19:50Z) - Revisit, Extend, and Enhance Hessian-Free Influence Functions [26.105554752277648]
影響関数は、モデルの解釈、サブセットのトレーニングセットの選択などにおけるサンプルの影響を評価する重要なツールとして機能する。
本稿では,Trac として知られる特定の有効近似法を再検討する。
この方法は、ヘッセン行列の逆を恒等行列で置き換える。
論文 参考訳(メタデータ) (2024-05-25T03:43:36Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - A Fair Loss Function for Network Pruning [70.35230425589592]
本稿では, 刈り込み時のバイアスの抑制に使用できる簡易な改良型クロスエントロピー損失関数である, 性能重み付き損失関数を提案する。
CelebA、Fitzpatrick17k、CIFAR-10データセットを用いた実験は、提案手法が単純で効果的なツールであることを実証している。
論文 参考訳(メタデータ) (2022-11-18T15:17:28Z) - Understanding Instance-Level Impact of Fairness Constraints [12.866655972682254]
公正な制約が課された場合のトレーニング例の影響について検討する。
重みのあるデータ例のサブセットでのトレーニングは、精度のトレードオフによって公平性違反の低減につながることが分かっています。
論文 参考訳(メタデータ) (2022-06-30T17:31:33Z) - On Baselines for Local Feature Attributions [6.700433100198165]
ローカル機能帰属メソッドはブラックボックスモデルを説明するのに役立つ。
ほとんどの属性モデルは、入力特徴の重要性と基準値(しばしばベースラインと呼ばれる)を比較する。
最近の研究では、ベースラインが特徴属性の品質に大きな影響を与えることが示されている。
論文 参考訳(メタデータ) (2021-01-04T11:48:42Z) - Efficient Estimation of Influence of a Training Instance [56.29080605123304]
本稿では,ニューラルネットワークモデルに対するトレーニングインスタンスの影響を効率的に推定する手法を提案する。
このメソッドは、サブネットワークをゼロマスクし、サブネットワークが各トレーニングインスタンスを学習するのを防ぎます。
提案手法は, 学習の影響を捉え, 誤り予測の解釈性を高め, 一般化改善のための訓練データセットをクリーン化できることを実証する。
論文 参考訳(メタデータ) (2020-12-08T04:31:38Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - RelatIF: Identifying Explanatory Training Examples via Relative
Influence [13.87851325824883]
インフルエンス関数を使用して、関連するトレーニング例を特定し、機械学習モデルの予測を"説明"することを望んでいます。
本稿では,グローバルな影響に制約を課す最適化目標を用いて,関連するトレーニング事例を選択するための新しい基準であるRelatIFを紹介する。
経験的評価では、RelatIFで返される例は影響関数を用いた例に比べて直感的であることが判明した。
論文 参考訳(メタデータ) (2020-03-25T20:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。