論文の概要: Quotient Semivalues for False-Name-Resistant Data Attribution
- arxiv url: http://arxiv.org/abs/2605.07663v1
- Date: Fri, 08 May 2026 12:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.042497
- Title: Quotient Semivalues for False-Name-Resistant Data Attribution
- Title(参考訳): False-Name-Resistant Data Attributionのためのクオリティな半値
- Authors: Florian A. D. Burnat, Brittany I. Davidson,
- Abstract要約: MLデータ属性における偽名操作の形式化を行う。
私たちはエビデンス支援の属性クラスタ上でShapley-、Banzhaf-、βスタイルの値を計算します。
戦略的なプロバイダ攻撃下での属性のベンチマークであるDataMarket-Gymのメカニズムをインスタンス化する。
- 参考スコア(独自算出の注目度): 1.253312107729806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data valuation methods allocate payments and audit training data's contribution to machine-learning pipelines; however, they often assume passive contributors. In reality, contributors can split datasets across pseudonymous identities, duplicate high-value examples, create near-duplicates, or launder synthetic variants to inflate their share. We formalize this as false-name manipulation in ML data attribution. Our main construction is the quotient semivalue mechanism: compute Shapley-, Banzhaf-, or Beta-style values over evidence-backed attribution clusters instead of raw identities, using a canonical-representative operator to absorb within-cluster duplication. We prove an impossibility: on a fixed monotone data-value game, exact Shapley-fair attribution over reported identities is incompatible with unrestricted false-name-proofness, even on binary-valued instances, and characterize the split-gain of a general semivalue on a unanimity counter-example. The mechanism is exactly false-name-proof under two structural conditions: false-name-neutral within-cluster allocation and quotient-stable manipulations. Under imperfect provenance, when these conditions hold approximately, manipulation gain and fairness loss are bounded by three measurable quantities: escaped-cluster mass, value-estimation error, and clustering distance. We instantiate the mechanisms in DataMarket-Gym, a benchmark for attribution under strategic provider attacks. On synthetic classification tasks, quotient semivalues with example-level evidence reduce manipulation gain on duplicate and near-duplicate Sybil attacks from $1.74$ under baseline Shapley to $0.96$, near the honest level. The cosine-threshold and (false-merge, false-split) rate sweeps trace the corresponding fairness--Sybil frontier.
- Abstract(参考訳): データ評価手法は、支払いを割り当て、トレーニングデータの機械学習パイプラインへの貢献を監査する。
実際には、コントリビュータはデータセットを匿名のアイデンティティに分割したり、重複した高価値の例を作ったり、ほぼ重複するものを作ったり、あるいは共有度を高めるためにラダー合成の亜種を作ったりすることができる。
我々はこれを、MLデータ属性における偽名操作として定式化する。
我々の主な構成は商半値機構である: 証拠に裏付けられた帰属クラスタに対してShapley-, Banzhaf-, Beta-styleの値を計算し、正規表現演算子を用いてクラスタ内複製を吸収する。
固定単調なデータ値ゲームでは、報告されたアイデンティティに対する正確なシャプリーフェア属性は、バイナリ値のインスタンスであっても、制限されない偽名保護とは相容れないことを証明し、一様反例に対して一般半値の分割ゲインを特徴付ける。
このメカニズムは、false-name-neutral in-clusterアロケーションとquotient-stable operationという2つの構造条件の下で、完全に偽名保護である。
不完全な証明の下では、これらの条件が概ね成立すると、操作ゲインとフェアネスの損失は3つの測定可能な量(エスケープクラスター質量、値推定誤差、クラスタリング距離)によって制限される。
戦略的なプロバイダ攻撃下での属性のベンチマークであるDataMarket-Gymのメカニズムをインスタンス化する。
合成分類タスクでは、サンプルレベルのエビデンスを持つ商半値は、重複およびほぼ重複したシビル攻撃の操作ゲインを、ベースラインのShapleyの下で1.74ドルから、正直なレベルに近い0.96ドルへと減少させる。
cosine-threshold と (false-merge, false-split) レートは対応するフェアネス(-Sybil frontier)をトレースする。
関連論文リスト
- VeriX-Anon: A Multi-Layered Framework for Mathematically Verifiable Outsourced Target-Driven Data Anonymization [0.0]
VeriX-Anonは、オープンソースのターゲット駆動k匿名化のための多層検証フレームワークである。
認証決定木のメルクル式ハッシュによる決定論的検証、ランダムフォレスト決定境界付近の境界センチネルによる確率的検証、および暗号識別子による正確な重複性ツインズの組み合わせである。
12のシナリオのうち11の偏差を正しく検出した。
論文 参考訳(メタデータ) (2026-04-14T08:22:18Z) - Causal Identification from Counterfactual Data: Completeness and Bounding Results [54.147490305295456]
本研究では,任意のレイヤ3分布の集合から対実的なクエリを識別するアルゴリズムを開発した。
我々は、物理的に実現可能な分布から反事実を特定できる理論的限界を確立する。
我々は、そのような量の新たな解析的境界を、実現可能な対実データを用いて導出する。
論文 参考訳(メタデータ) (2026-02-26T22:48:12Z) - Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - Out-Of-Domain Unlabeled Data Improves Generalization [0.7589678255312519]
本稿では,ラベルなしデータを半教師付き分類問題に組み込む新しい枠組みを提案する。
ラベルのないサンプルは一般化ギャップを狭めるために利用できることを示す。
我々は、さまざまな合成および実世界のデータセットで実施された実験を通じて、我々の主張を検証する。
論文 参考訳(メタデータ) (2023-09-29T02:00:03Z) - Breaking the Spurious Causality of Conditional Generation via Fairness
Intervention with Corrective Sampling [77.15766509677348]
条件生成モデルは、トレーニングデータセットから急激な相関を継承することが多い。
これは別の潜在属性に対して不均衡なラベル条件分布をもたらす。
この問題を緩和するための一般的な2段階戦略を提案する。
論文 参考訳(メタデータ) (2022-12-05T08:09:33Z) - Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised
Person Re-Identification [80.98291772215154]
教師なしの人物再識別(ReID)は、アノテーションを使わずに人物検索のための識別的アイデンティティの特徴を学習することを目的としている。
近年の進歩はクラスタリングに基づく擬似ラベルを活用することで実現されている。
本稿では, Pseudo Label Refinement フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T09:39:57Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - Generating Out of Distribution Adversarial Attack using Latent Space
Poisoning [5.1314136039587925]
本稿では,実際の画像が破損しない敵の例を生成する新しいメカニズムを提案する。
潜在空間表現は、画像の固有構造を改ざんするために利用される。
勾配ベースの攻撃とは対照的に、潜時空間中毒は、トレーニングデータセットの独立かつ同一分布をモデル化する分類器の傾きを利用する。
論文 参考訳(メタデータ) (2020-12-09T13:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。