論文の概要: Data Overvaluation Attack and Truthful Data Valuation
- arxiv url: http://arxiv.org/abs/2502.00494v2
- Date: Tue, 04 Feb 2025 08:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:53.289024
- Title: Data Overvaluation Attack and Truthful Data Valuation
- Title(参考訳): データ過大評価攻撃と真剣なデータ評価
- Authors: Shuyuan Zheng, Sudong Cai, Chuan Xiao, Yang Cao, Jianbin Qin, Masatoshi Yoshikawa, Makoto Onizuka,
- Abstract要約: 本稿では、戦略的クライアントがデータを著しく過大評価できる最初のデータ過大評価攻撃について紹介する。
我々は、Trath-Shapleyという真のデータ評価指標を提案する。
実験では,データ過大評価攻撃に対する既存のデータ評価指標の脆弱性を実証し,Trth-Shapleyの堅牢性と有効性を検証する。
- 参考スコア(独自算出の注目度): 19.974649007968946
- License:
- Abstract: In collaborative machine learning, data valuation, i.e., evaluating the contribution of each client' data to the machine learning model, has become a critical task for incentivizing and selecting positive data contributions. However, existing studies often assume that clients engage in data valuation truthfully, overlooking the practical motivation for clients to exaggerate their contributions. To unlock this threat, this paper introduces the first data overvaluation attack, enabling strategic clients to have their data significantly overvalued. Furthermore, we propose a truthful data valuation metric, named Truth-Shapley. Truth-Shapley is the unique metric that guarantees some promising axioms for data valuation while ensuring that clients' optimal strategy is to perform truthful data valuation. Our experiments demonstrate the vulnerability of existing data valuation metrics to the data overvaluation attack and validate the robustness and effectiveness of Truth-Shapley.
- Abstract(参考訳): 協調機械学習において、データバリュエーション、すなわち、各クライアントのデータから機械学習モデルへのコントリビューションを評価することは、ポジティブなデータコントリビューションのインセンティブと選択にとって重要なタスクとなっている。
しかし、既存の研究では、クライアントが自分の貢献を誇張する実践的な動機を見越して、クライアントが真にデータ評価に従事していると仮定することが多い。
この脅威を解消するために、戦略的クライアントがデータを著しく過大評価できる最初のデータ過大評価攻撃を導入する。
さらに,真正なデータ評価指標であるTrth-Shapleyを提案する。
Truth-Shapleyは、データバリュエーションに対する有望な公理を保証すると同時に、クライアントの最適な戦略が真にデータバリュエーションを実行することを保証するユニークなメトリックである。
実験では,データ過大評価攻撃に対する既存のデータ評価指標の脆弱性を実証し,Trth-Shapleyの堅牢性と有効性を検証する。
関連論文リスト
- Private, Augmentation-Robust and Task-Agnostic Data Valuation Approach for Data Marketplace [56.78396861508909]
PriArTaは、買い手の既存のデータセットと売り手のデータセットの分布の間の距離を計算するアプローチである。
PriArTaは通信効率が良く、買い手は各売り手からデータセット全体にアクセスすることなくデータセットを評価することができる。
論文 参考訳(メタデータ) (2024-11-01T17:13:14Z) - Personalization of Dataset Retrieval Results using a Metadata-based Data Valuation Method [0.5999777817331317]
アイルランドのナショナル・マッピング・エージェンシーにおいて,データセット検索のための新しいデータ評価手法を提案する。
メタデータとユーザの好みを利用して、各データセットの個人価値を推定する。
データセットの利害関係者のランキングに対して、データバリューベースのランキングを検証しました。
論文 参考訳(メタデータ) (2024-07-22T11:13:07Z) - Uncertainty for Active Learning on Graphs [70.44714133412592]
不確実性サンプリングは、機械学習モデルのデータ効率を改善することを目的とした、アクティブな学習戦略である。
予測の不確実性を超えた不確実性サンプリングをベンチマークし、他のアクティブラーニング戦略に対する大きなパフォーマンスギャップを強調します。
提案手法は,データ生成プロセスの観点から基幹的ベイズ不確実性推定法を開発し,不確実性サンプリングを最適クエリへ導く上での有効性を実証する。
論文 参考訳(メタデータ) (2024-05-02T16:50:47Z) - Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - Towards Fair, Robust and Efficient Client Contribution Evaluation in
Federated Learning [16.543724155324938]
FRECA(Fair, Robust, Efficient Client Assessment)と呼ばれる新しい手法を導入する。
FRECAはFedTruthというフレームワークを使用して、グローバルモデルの真実の更新を見積もり、すべてのクライアントからのコントリビューションのバランスをとり、悪意のあるクライアントからの影響をフィルタリングする。
実験の結果,FRECAはクライアントのコントリビューションをロバストな方法で正確かつ効率的に定量化できることがわかった。
論文 参考訳(メタデータ) (2024-02-06T21:07:12Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective [64.73162159837956]
ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
データ中心のフレームワークであるDataCOPEを提案する。
医療データセットを用いたログ化された文脈的帯域設定におけるDataCOPEの実証分析により、機械学習と人間の専門家ポリシーの両方を評価する能力が確認された。
論文 参考訳(メタデータ) (2023-11-23T17:13:37Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Assessment of creditworthiness models privacy-preserving training with
synthetic data [4.014524824655106]
実世界のデータに適用した場合に合成データを用いて訓練したモデルの性能を評価する。
合成データでトレーニングされた信用度評価モデルでは、実際のデータでトレーニングされたモデルと比較して、AUCの3%、KSの6%が減少している。
論文 参考訳(メタデータ) (2022-12-31T19:13:14Z) - Statistical Dataset Evaluation: Reliability, Difficulty, and Validity [18.36931975072938]
自動データセット品質評価のためのモデルに依存しないデータセット評価フレームワークを提案する。
我々は、データセットの統計的性質を求め、信頼性、難易度、妥当性の3つの基本的な次元に対処する。
論文 参考訳(メタデータ) (2022-12-19T06:55:42Z) - Data Poisoning Attacks and Defenses to Crowdsourcing Systems [26.147716118854614]
クラウドソーシングはデータ中毒攻撃に対して脆弱であることを示す。
悪意のあるクライアントは、集約されたデータを壊すために注意深く作られたデータを提供します。
悪質なクライアントの影響を減らすため、2つの防御策を提案する。
論文 参考訳(メタデータ) (2021-02-18T06:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。