論文の概要: Attesting Distributional Properties of Training Data for Machine Learning
- arxiv url: http://arxiv.org/abs/2308.09552v4
- Date: Tue, 9 Apr 2024 11:41:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 20:26:21.680850
- Title: Attesting Distributional Properties of Training Data for Machine Learning
- Title(参考訳): 機械学習のためのトレーニングデータの分布特性の検証
- Authors: Vasisht Duddu, Anudeep Das, Nora Khayata, Hossein Yalame, Thomas Schneider, N. Asokan,
- Abstract要約: いくつかの管轄区域は、機械学習の規制フレームワークを準備している。
ドラフト規則は、トレーニングデータセットが特定の分散特性を持つことを示すために、モデルトレーナーが必要であることを示している。
本研究では,証明者がデータを明らかにすることなく,学習データの適切な分布特性を検証者に示すことのできる特性証明の概念を提案する。
- 参考スコア(独自算出の注目度): 15.2927830843089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of machine learning (ML) has been accompanied by increased concerns about its trustworthiness. Several jurisdictions are preparing ML regulatory frameworks. One such concern is ensuring that model training data has desirable distributional properties for certain sensitive attributes. For example, draft regulations indicate that model trainers are required to show that training datasets have specific distributional properties, such as reflecting diversity of the population. We propose the notion of property attestation allowing a prover (e.g., model trainer) to demonstrate relevant distributional properties of training data to a verifier (e.g., a customer) without revealing the data. We present an effective hybrid property attestation combining property inference with cryptographic mechanisms.
- Abstract(参考訳): 機械学習(ML)の成功は、その信頼性に対する懸念が高まっている。
いくつかの管轄区域がML規制の枠組みを準備している。
そのような懸念の1つは、モデルトレーニングデータが特定の機密属性に対して望ましい分布特性を持つことである。
例えば、ドラフト規則は、トレーニングデータセットが人口の多様性を反映するなど、特定の分布特性を持つことを示すためにモデルトレーナーが必要であることを示している。
本研究では,証明者(例えばモデルトレーナー)がデータを明らかにすることなく,学習データの適切な分布特性を検証者(例えば顧客)に示すことができる特性証明の概念を提案する。
本稿では,プロパティ推論と暗号機構を組み合わせた効果的なハイブリッド特性証明を提案する。
関連論文リスト
- Laminator: Verifiable ML Property Cards using Hardware-assisted Attestations [10.278905067763686]
悪意のあるモデルプロバイダは、MLプロパティカードに偽情報を含めることができ、MLプロパティカードの必要性を高めることができる。
実証者(例えば、モデル提供者)が、訓練中に異なるMLプロパティを証明し、検証者(例えば、監査者)に推論する技術メカニズムを用いて、それらを実現する方法を示す。
論文 参考訳(メタデータ) (2024-06-25T13:36:53Z) - Prospector Heads: Generalized Feature Attribution for Large Models & Data [82.02696069543454]
本稿では,説明に基づく帰属手法の効率的かつ解釈可能な代替手段であるプロスペクタヘッドを紹介する。
入力データにおけるクラス固有のパターンの解釈と発見を、プロファイラヘッドがいかに改善できるかを実証する。
論文 参考訳(メタデータ) (2024-02-18T23:01:28Z) - On the Connection between Pre-training Data Diversity and Fine-tuning
Robustness [66.30369048726145]
下流の有効ロバスト性に影響を与える主な要因はデータ量である。
各種自然および合成データソースから抽出した事前学習分布について,本研究の成果を示す。
論文 参考訳(メタデータ) (2023-07-24T05:36:19Z) - Provable Robustness for Streaming Models with a Sliding Window [51.85182389861261]
オンラインコンテンツレコメンデーションや株式市場分析のようなディープラーニングアプリケーションでは、モデルは過去のデータを使って予測を行う。
入力ストリーム上の固定サイズのスライディングウインドウを使用するモデルに対して、ロバスト性証明を導出する。
私たちの保証は、ストリーム全体の平均モデルパフォーマンスを保ち、ストリームサイズに依存しないので、大きなデータストリームに適しています。
論文 参考訳(メタデータ) (2023-03-28T21:02:35Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Dikaios: Privacy Auditing of Algorithmic Fairness via Attribute
Inference Attacks [0.5801044612920815]
モデルビルダーのための公正性アルゴリズムのためのプライバシ監査ツールであるDikaiosを提案する。
適応予測しきい値を持つ属性推論攻撃は,前回の攻撃よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-02-04T17:19:59Z) - Toward Formal Data Set Verification for Building Effective Machine
Learning Models [2.707154152696381]
本稿では,データセット上で任意に記述されたプロパティの集合を検証するための公式なアプローチを提案する。
提案手法は,データセットの1次論理式への変換に依存する。
z3ソルバを使った試作ツールが開発されている。
論文 参考訳(メタデータ) (2021-08-25T13:22:24Z) - Formalizing Distribution Inference Risks [11.650381752104298]
プロパティ推論攻撃は、統計機械学習の主な目的と区別することが難しい。
プロパティ推論攻撃の形式的で汎用的な定義を提案する。
論文 参考訳(メタデータ) (2021-06-07T15:10:06Z) - Proof-of-Learning: Definitions and Practice [15.585184189361486]
トレーニングマシンラーニング(ML)モデルは通常、高価な反復最適化を伴う。
現在、これらのパラメータが実際にこの最適化手順の結果であることを証明するためにモデルを訓練したエンティティのメカニズムはありません。
本稿では,MLにおける学習の証明という概念を紹介する。
論文 参考訳(メタデータ) (2021-03-09T18:59:54Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。