論文の概要: Feature Selection from Differentially Private Correlations
- arxiv url: http://arxiv.org/abs/2408.10862v2
- Date: Fri, 23 Aug 2024 03:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 10:23:46.420922
- Title: Feature Selection from Differentially Private Correlations
- Title(参考訳): 個人差分相関による特徴選択
- Authors: Ryan Swope, Amol Khanna, Philip Doldo, Saptarshi Roy, Edward Raff,
- Abstract要約: 高次元回帰はデータセット内の個々のデータポイントに関する情報をリークすることができる。
相関に基づく順序統計を用いて、データセットから重要な特徴を選択し、それらを民営化する。
提案手法は,多くのデータセット上でのプライベートな特徴選択において,確立されたベースラインを著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 35.187113265093615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data scientists often seek to identify the most important features in high-dimensional datasets. This can be done through $L_1$-regularized regression, but this can become inefficient for very high-dimensional datasets. Additionally, high-dimensional regression can leak information about individual datapoints in a dataset. In this paper, we empirically evaluate the established baseline method for feature selection with differential privacy, the two-stage selection technique, and show that it is not stable under sparsity. This makes it perform poorly on real-world datasets, so we consider a different approach to private feature selection. We employ a correlations-based order statistic to choose important features from a dataset and privatize them to ensure that the results do not leak information about individual datapoints. We find that our method significantly outperforms the established baseline for private feature selection on many datasets.
- Abstract(参考訳): データサイエンティストは、しばしば高次元データセットで最も重要な特徴を特定しようとする。
これは$L_1$-regularized regressionによって実現できるが、非常に高次元のデータセットでは非効率になる可能性がある。
さらに、高次元回帰はデータセット内の個々のデータポイントに関する情報をリークすることができる。
本稿では,2段階選択法である差分プライバシによる特徴選択のための確立された基本手法を実証的に評価し,空間的に安定していないことを示す。
これにより、実際のデータセットではパフォーマンスが低下するので、プライベートな機能選択に対する別のアプローチを検討します。
相関に基づく順序統計を用いて、データセットから重要な特徴を選択し、それらを民営化し、結果が個々のデータポイントに関する情報を漏らさないようにする。
提案手法は,多くのデータセット上でのプライベートな特徴選択において,確立されたベースラインを著しく上回っていることがわかった。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Rethinking Data Selection at Scale: Random Selection is Almost All You Need [39.14807071480125]
教師付き微調整は、大規模言語モデルと人間の指示の整合に不可欠である。
既存のデータ選択技術の多くは、小規模なデータプール用に設計されている。
論文 参考訳(メタデータ) (2024-10-12T02:48:34Z) - Privacy-Optimized Randomized Response for Sharing Multi-Attribute Data [1.1510009152620668]
マルチ属性データの共有において最強のプライバシを保証するために,プライバシ最適化ランダム化応答を提案する。
また、近似属性機構を構築するための効率的なアルゴリズムを提案する。
提案手法は,既存の手法に比べて,データセット全体のプライバシー保証を大幅に強化する。
論文 参考訳(メタデータ) (2024-02-12T11:34:42Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Selecting Features by their Resilience to the Curse of Dimensionality [0.0]
実世界のデータセットは、しばしば高次元であり、次元性の呪いによって影響される。
ここでは、異なるサイズのデータサブセットを識別できる特徴を識別する新しい手法について述べる。
実験の結果,提案手法は競争力があり,確立された特徴選択法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-05T14:26:23Z) - Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。
そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。
提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文 参考訳(メタデータ) (2022-03-24T09:08:05Z) - Differentially Private Simple Linear Regression [2.614403183902121]
差分プライバシーを満たす単純な線形回帰のアルゴリズムについて検討する。
小データセットに対する単純な線形回帰のための微分プライベートアルゴリズムの設計を考察する。
設定に適応するアルゴリズムのスペクトルの性能について検討する。
論文 参考訳(メタデータ) (2020-07-10T04:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。