論文の概要: Influence-based Attributions can be Manipulated
- arxiv url: http://arxiv.org/abs/2409.05208v1
- Date: Sun, 8 Sep 2024 19:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-10 16:58:34.065772
- Title: Influence-based Attributions can be Manipulated
- Title(参考訳): 影響に基づく属性を操作できる
- Authors: Chhavi Yadav, Ruihan Wu, Kamalika Chaudhuri,
- Abstract要約: 我々は、影響に基づく属性を操作するための現実的なインセンティブを提示し、これらの属性が敵によって体系的に妨げられるかどうかを調査する。
我々の研究は、敵対的な状況下での影響力に基づく属性の信頼性に関する疑問を提起する。
- 参考スコア(独自算出の注目度): 26.579158405412127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Influence Functions are a standard tool for attributing predictions to training data in a principled manner and are widely used in applications such as data valuation and fairness. In this work, we present realistic incentives to manipulate influencebased attributions and investigate whether these attributions can be systematically tampered by an adversary. We show that this is indeed possible and provide efficient attacks with backward-friendly implementations. Our work raises questions on the reliability of influence-based attributions under adversarial circumstances.
- Abstract(参考訳): インフルエンス関数は,データ評価や公正性といったアプリケーションで広く使用されている,データトレーニングに予測を関連付けるための標準ツールである。
本研究では、影響に基づく属性を操作するための現実的なインセンティブを提示し、これらの属性が敵によって体系的に妨げられるかどうかを検討する。
これは本当に可能であり、後方フレンドリーな実装で効率的な攻撃を提供する。
我々の研究は、敵対的な状況下での影響力に基づく属性の信頼性に関する疑問を提起する。
関連論文リスト
- Concept Influence: Leveraging Interpretability to Improve Performance and Efficiency in Training Data Attribution [11.387100835483672]
トレーニングデータ属性(TDA)メソッドは、トレーニングデータが特定の行動、特に意図しない行動を実行する方法を特定する。
影響関数のような既存のアプローチは、計算的に高価であり、単一のテスト例に基づく属性である。
帰属中にモデル内の解釈可能な構造を利用する。
従来のTDAパイプラインに解釈可能な構造を組み込むことで,データによるモデル動作のよりスケーラブルで説明可能な,より優れた制御が可能になることを示す。
論文 参考訳(メタデータ) (2026-02-16T16:02:09Z) - Scalable Data Attribution via Forward-Only Test-Time Inference [3.5466521714943138]
データ属性は、モデルを形作ったトレーニング例に遡る。
同一の1次対物目標を保存するデータ属性法を提案する。
提案手法は,大規模事前学習モデルにおける実時間データ属性の理論的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-25T00:11:39Z) - Understanding Fairness and Prediction Error through Subspace Decomposition and Influence Analysis [20.446739075831722]
本稿では,データ表現を調整し,予測ユーティリティと公正性のバランスをとるためのフレームワークを提案する。
本稿では,共有部分空間が付加されるにつれて,予測誤差と公平性ギャップがどのように進化するかを理論的に分析する。
提案手法は, 予測性能を維持しつつ, 公平性を効果的に向上することを示す。
論文 参考訳(メタデータ) (2025-10-27T23:38:00Z) - Efficiently Attacking Memorization Scores [16.56405009324799]
本稿では,記憶をベースとした影響推定装置の攻撃可能性について検討する。
我々は、訓練されたアルゴリズムが正確である体制において、高度に記憶されたサンプルを高感度なクエリとして生成する攻撃を特徴付ける。
本研究は,影響に基づく属性の重大な脆弱性を浮き彫りにし,堅牢な防御の必要性を示唆する。
論文 参考訳(メタデータ) (2025-09-24T18:33:10Z) - Revisiting Data Attribution for Influence Functions [13.88866465448849]
本稿では,ディープラーニングにおける影響関数のデータ帰属能力について概説する。
提案手法の理論的基礎, 効率的な逆ヘッセンベクトル積推定のためのアルゴリズムの最近の進歩, およびデータ帰属と誤ラベル検出の有効性について考察する。
論文 参考訳(メタデータ) (2025-08-10T11:15:07Z) - Simulating Biases for Interpretable Fairness in Offline and Online Classifiers [0.35998666903987897]
緩和方法は、モデル結果が公平に調整されることを保証するために重要である。
我々は、制御可能なバイアス注入による合成データセット生成のためのフレームワークを開発する。
実験では、オフラインとオンラインの両方の学習アプローチが採用されている。
論文 参考訳(メタデータ) (2025-07-14T11:04:24Z) - A Versatile Influence Function for Data Attribution with Non-Decomposable Loss [3.1615846013409925]
本稿では,非分解不能な損失を学習した機械学習モデルに対して,直接適用可能なVersatile Influence Function (VIF)を提案する。
VIFはデータ属性の大幅な進歩を表しており、幅広い機械学習パラダイムにまたがる効率的な影響関数ベースの属性を可能にする。
論文 参考訳(メタデータ) (2024-12-02T09:59:01Z) - Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
本稿では,テキスト・インフルエンス・ファンクション・フレームワークを開発することにより,このような課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Causal Action Influence Aware Counterfactual Data Augmentation [23.949113120847507]
我々は,オンライン環境のインタラクションにアクセスすることなく,固定データセットから合成トランジションを生成可能なデータ拡張手法であるCAIACを提案する。
因果的影響を定量化するための原理的手法を利用することで、状態空間の$itaction$-unffected部分を交換することで、反ファクト的推論を行うことができる。
これにより、分散シフトに対するオフライン学習アルゴリズムの堅牢性が大幅に向上する。
論文 参考訳(メタデータ) (2024-05-29T09:19:50Z) - Revisit, Extend, and Enhance Hessian-Free Influence Functions [26.105554752277648]
影響関数は、モデルの解釈、サブセットのトレーニングセットの選択などにおけるサンプルの影響を評価する重要なツールとして機能する。
本稿では,Trac として知られる特定の有効近似法を再検討する。
この方法は、ヘッセン行列の逆を恒等行列で置き換える。
論文 参考訳(メタデータ) (2024-05-25T03:43:36Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - A Fair Loss Function for Network Pruning [70.35230425589592]
本稿では, 刈り込み時のバイアスの抑制に使用できる簡易な改良型クロスエントロピー損失関数である, 性能重み付き損失関数を提案する。
CelebA、Fitzpatrick17k、CIFAR-10データセットを用いた実験は、提案手法が単純で効果的なツールであることを実証している。
論文 参考訳(メタデータ) (2022-11-18T15:17:28Z) - Understanding Instance-Level Impact of Fairness Constraints [12.866655972682254]
公正な制約が課された場合のトレーニング例の影響について検討する。
重みのあるデータ例のサブセットでのトレーニングは、精度のトレードオフによって公平性違反の低減につながることが分かっています。
論文 参考訳(メタデータ) (2022-06-30T17:31:33Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - On Baselines for Local Feature Attributions [6.700433100198165]
ローカル機能帰属メソッドはブラックボックスモデルを説明するのに役立つ。
ほとんどの属性モデルは、入力特徴の重要性と基準値(しばしばベースラインと呼ばれる)を比較する。
最近の研究では、ベースラインが特徴属性の品質に大きな影響を与えることが示されている。
論文 参考訳(メタデータ) (2021-01-04T11:48:42Z) - Efficient Estimation of Influence of a Training Instance [56.29080605123304]
本稿では,ニューラルネットワークモデルに対するトレーニングインスタンスの影響を効率的に推定する手法を提案する。
このメソッドは、サブネットワークをゼロマスクし、サブネットワークが各トレーニングインスタンスを学習するのを防ぎます。
提案手法は, 学習の影響を捉え, 誤り予測の解釈性を高め, 一般化改善のための訓練データセットをクリーン化できることを実証する。
論文 参考訳(メタデータ) (2020-12-08T04:31:38Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - RelatIF: Identifying Explanatory Training Examples via Relative
Influence [13.87851325824883]
インフルエンス関数を使用して、関連するトレーニング例を特定し、機械学習モデルの予測を"説明"することを望んでいます。
本稿では,グローバルな影響に制約を課す最適化目標を用いて,関連するトレーニング事例を選択するための新しい基準であるRelatIFを紹介する。
経験的評価では、RelatIFで返される例は影響関数を用いた例に比べて直感的であることが判明した。
論文 参考訳(メタデータ) (2020-03-25T20:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。