論文の概要: Trained Random Forests Completely Reveal your Dataset
- arxiv url: http://arxiv.org/abs/2402.19232v2
- Date: Wed, 14 Aug 2024 20:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 18:53:22.285317
- Title: Trained Random Forests Completely Reveal your Dataset
- Title(参考訳): ランダムな森のトレーニングで、データセットが完全に解明される
- Authors: Julien Ferry, Ricardo Fukasawa, Timothée Pascal, Thibaut Vidal,
- Abstract要約: ランダム森林のトレーニングに使用するデータセットを完全にあるいはほぼ完全に再構築できる最適化ベースの再構築攻撃を導入する。
本稿では, 最大目標条件下での復元問題を定式化する。
この問題はNPハードであり、制約プログラミングを用いて大規模に解決可能であることを実証する。
- 参考スコア(独自算出の注目度): 3.929854470352013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce an optimization-based reconstruction attack capable of completely or near-completely reconstructing a dataset utilized for training a random forest. Notably, our approach relies solely on information readily available in commonly used libraries such as scikit-learn. To achieve this, we formulate the reconstruction problem as a combinatorial problem under a maximum likelihood objective. We demonstrate that this problem is NP-hard, though solvable at scale using constraint programming -- an approach rooted in constraint propagation and solution-domain reduction. Through an extensive computational investigation, we demonstrate that random forests trained without bootstrap aggregation but with feature randomization are susceptible to a complete reconstruction. This holds true even with a small number of trees. Even with bootstrap aggregation, the majority of the data can also be reconstructed. These findings underscore a critical vulnerability inherent in widely adopted ensemble methods, warranting attention and mitigation. Although the potential for such reconstruction attacks has been discussed in privacy research, our study provides clear empirical evidence of their practicability.
- Abstract(参考訳): ランダム森林のトレーニングに使用するデータセットを完全にあるいはほぼ完全に再構築できる最適化ベースの再構築攻撃を導入する。
特に,本手法は,Scikit-learn などの一般的な図書館で利用できる情報にのみ依存する。
これを実現するために、最大目的条件下での組合せ問題として再構成問題を定式化する。
制約分散と解領域還元に根ざしたアプローチである制約プログラミングを用いて、スケールで解決可能ではあるが、この問題はNPハードであることを示す。
本研究は,ブートストラップアグリゲーションを使わずに訓練された無作為林において,特徴的ランダム化が完全に再構築される可能性が示唆された。
これは少数の木でも当てはまる。
ブートストラップアグリゲーションであっても、データの大部分を再構築することもできる。
これらの知見は、広く採用されているアンサンブル法に固有の致命的な脆弱性を浮き彫りにし、注意と緩和を保証した。
このような再建攻撃の可能性については,プライバシー研究で議論されているが,本研究は,その実践性に関する実証的な証拠を提示する。
関連論文リスト
- QBI: Quantile-Based Bias Initialization for Efficient Private Data Reconstruction in Federated Learning [0.5497663232622965]
フェデレーション学習は、ユーザのプライバシを損なうことなく、分散データ上で機械学習モデルのトレーニングを可能にする。
近年の研究では、中央のエンティティが共有モデル更新からプライベートデータを完全に再構築できることが示されている。
論文 参考訳(メタデータ) (2024-06-26T20:19:32Z) - Distributionally Robust Skeleton Learning of Discrete Bayesian Networks [9.46389554092506]
我々は、潜在的に破損したデータから一般的な離散ベイズネットワークの正確なスケルトンを学習する問題を考察する。
本稿では,有界ワッサーシュタイン距離(KL)における分布群に対する最も有害なリスクを,経験的分布へのKL分散を最適化することを提案する。
本稿では,提案手法が標準正規化回帰手法と密接に関連していることを示す。
論文 参考訳(メタデータ) (2023-11-10T15:33:19Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Neural Collapse Terminus: A Unified Solution for Class Incremental
Learning and Its Variants [166.916517335816]
本稿では,3つの課題における不整合ジレンマに対する統一解を提案する。
ラベル空間全体の最大等角的クラス間分離を有する固定構造である神経崩壊終端を提案する。
本手法は,データ不均衡やデータ不足にかかわらず,神経崩壊最適度を漸進的に保持する。
論文 参考訳(メタデータ) (2023-08-03T13:09:59Z) - What Can We Learn from Unlearnable Datasets? [107.12337511216228]
学習不可能なデータセットは、ディープニューラルネットワークの一般化を防ぐことによって、データのプライバシを保護する可能性がある。
学習不可能なデータセットでトレーニングされたニューラルネットワークは、一般化には役に立たない単純なルールであるショートカットのみを学ぶと広く信じられている。
これとは対照的に,ネットワークは高いテスト性能を期待できる有用な特徴を実際に学習することができ,画像保護が保証されていないことを示唆している。
論文 参考訳(メタデータ) (2023-05-30T17:41:35Z) - Understanding Reconstruction Attacks with the Neural Tangent Kernel and
Dataset Distillation [110.61853418925219]
我々は、データセット再構築攻撃のより強力なバージョンを構築し、無限の幅で設定されたエンペントリアルトレーニングを確実に回復する方法を示す。
理論的にも経験的にも再構成された画像は、データセットの「外部」に傾向を示す。
これらのリコンストラクション攻撃は, テクストデータセット蒸留において, 再構成画像上で再トレーニングを行い, 高い予測精度を得ることができる。
論文 参考訳(メタデータ) (2023-02-02T21:41:59Z) - TiWS-iForest: Isolation Forest in Weakly Supervised and Tiny ML
scenarios [2.7285752469525315]
アイソレーション・フォレスト(Isolation Forest)は、アイソレーション・ツリーと呼ばれる木々のアンサンブルを用いて、異常スコアを定義できる一般的なアルゴリズムである。
メモリ要件,レイテンシ,パフォーマンスの観点から,標準アルゴリズムが改良される可能性がある。
弱い監視を生かしたTiWS-iForestを提案することにより,森林分離の複雑さを低減し,検出性能を向上させることができる。
論文 参考訳(メタデータ) (2021-11-30T14:24:27Z) - Correlation Clustering Reconstruction in Semi-Adversarial Models [70.11015369368272]
相関クラスタリングは多くのアプリケーションにおいて重要なクラスタリング問題である。
本研究では,ランダムノイズや対向的な修正によって崩壊した潜伏クラスタリングを再構築しようとする,この問題の再構築版について検討する。
論文 参考訳(メタデータ) (2021-08-10T14:46:17Z) - Exploring the Security Boundary of Data Reconstruction via Neuron
Exclusivity Analysis [23.07323180340961]
線形整列ユニット(ReLUs)を用いたニューラルネットワーク上の微視的視点による勾配からのデータ再構成のセキュリティ境界について検討する。
ニューラルネットワークの安全性の低い境界にある訓練バッチの再構築において,従来の攻撃よりも大幅に優れる新しい決定論的攻撃アルゴリズムを構築した。
論文 参考訳(メタデータ) (2020-10-26T05:54:47Z) - Investigating the Scalability and Biological Plausibility of the
Activation Relaxation Algorithm [62.997667081978825]
アクティベーション・リラクシエーション(AR)アルゴリズムは、誤りアルゴリズムのバックプロパゲーションを近似するためのシンプルでロバストなアプローチを提供する。
このアルゴリズムは、学習可能な後方重みセットを導入することにより、さらに単純化され、生物学的に検証可能であることを示す。
また、元のARアルゴリズム(凍結フィードフォワードパス)の別の生物学的に信じられない仮定が、パフォーマンスを損なうことなく緩和できるかどうかについても検討する。
論文 参考訳(メタデータ) (2020-10-13T08:02:38Z) - Generalizing Variational Autoencoders with Hierarchical Empirical Bayes [6.273154057349038]
確率的生成モデルのための計算的に安定なフレームワークである階層的経験的ベイズオートエンコーダ(HEBAE)を提案する。
鍵となる貢献は2つであり、まず、符号化分布を階層的に優先することで、再構成損失関数の最小化と過正規化の回避とのトレードオフを適応的にバランスさせることで、利益を得る。
論文 参考訳(メタデータ) (2020-07-20T18:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。