論文の概要: Machine Unlearning for Random Forests
- arxiv url: http://arxiv.org/abs/2009.05567v2
- Date: Fri, 11 Jun 2021 22:04:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 21:08:30.200883
- Title: Machine Unlearning for Random Forests
- Title(参考訳): ランダム森林の機械学習
- Authors: Jonathan Brophy and Daniel Lowd
- Abstract要約: 我々は,データ除去可能な森林(DaRE)を導入し,最小限の再トレーニングによるトレーニングデータの除去を可能にするランダム森林の変種について紹介する。
DaREツリーはランダム性とキャッシュを使用してデータの削除を効率的にする。
DaREの森林は、データの順序をスクラッチからリトレーニングするよりもはるかに早く削除し、予測力をほとんど、あるいは全く犠牲にしない。
- 参考スコア(独自算出の注目度): 13.109852233032395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Responding to user data deletion requests, removing noisy examples, or
deleting corrupted training data are just a few reasons for wanting to delete
instances from a machine learning (ML) model. However, efficiently removing
this data from an ML model is generally difficult. In this paper, we introduce
data removal-enabled (DaRE) forests, a variant of random forests that enables
the removal of training data with minimal retraining. Model updates for each
DaRE tree in the forest are exact, meaning that removing instances from a DaRE
model yields exactly the same model as retraining from scratch on updated data.
DaRE trees use randomness and caching to make data deletion efficient. The
upper levels of DaRE trees use random nodes, which choose split attributes and
thresholds uniformly at random. These nodes rarely require updates because they
only minimally depend on the data. At the lower levels, splits are chosen to
greedily optimize a split criterion such as Gini index or mutual information.
DaRE trees cache statistics at each node and training data at each leaf, so
that only the necessary subtrees are updated as data is removed. For numerical
attributes, greedy nodes optimize over a random subset of thresholds, so that
they can maintain statistics while approximating the optimal threshold. By
adjusting the number of thresholds considered for greedy nodes, and the number
of random nodes, DaRE trees can trade off between more accurate predictions and
more efficient updates.
In experiments on 13 real-world datasets and one synthetic dataset, we find
DaRE forests delete data orders of magnitude faster than retraining from
scratch while sacrificing little to no predictive power.
- Abstract(参考訳): ユーザデータの削除要求への応答、騒がしい例の削除、破損したトレーニングデータの削除は、マシンラーニング(ml)モデルからインスタンスを削除する理由のほんの一部に過ぎない。
しかし、このデータをmlモデルから効率的に削除することは一般的に難しい。
本稿では,データ除去可能林(DaRE)について紹介する。これはランダムな森林の変種であり,最小限の再トレーニングによるトレーニングデータの除去を可能にする。
つまり、DaREモデルからインスタンスを削除することは、更新されたデータでスクラッチから再トレーニングするのと全く同じモデルになる。
DaREツリーはランダム性とキャッシュを使用してデータの削除を効率的にする。
DaREツリーの上位レベルはランダムノードを使用し、ランダムにスプリット属性としきい値を選択する。
これらのノードは、データにのみ依存するため、更新をほとんど必要としない。
下位レベルでは、分割はGiniインデックスや相互情報などの分割基準を優遇的に最適化するために選択される。
DaREツリーは各ノードの統計データをキャッシュし、各リーフでのトレーニングデータをキャッシュする。
数値属性に対して、グリードノードは閾値のランダムなサブセットを最適化し、最適な閾値を近似しながら統計を維持することができる。
グリーディノードのしきい値数とランダムノード数を調整することで、dareツリーはより正確な予測とより効率的な更新を切り替えることができる。
13の現実世界のデータセットと1つの合成データセットの実験では、DaREの森林は、予測力をほとんど生かさず、スクラッチからトレーニングするよりもはるかに早くデータの順序を削除する。
関連論文リスト
- Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - TreeLearn: A Comprehensive Deep Learning Method for Segmenting
Individual Trees from Ground-Based LiDAR Forest Point Clouds [42.87502453001109]
森林点雲のツリーインスタンスセグメンテーションのためのディープラーニングに基づくアプローチであるTreeLearnを提案する。
TreeLearnは、すでにセグメンテーションされたポイントクラウドにデータ駆動でトレーニングされているため、事前に定義された機能やアルゴリズムに依存しない。
我々は、Lidar360ソフトウェアを使って6665本の木の森林点雲上でTreeLearnを訓練した。
論文 参考訳(メタデータ) (2023-09-15T15:20:16Z) - Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - Chains of Autoreplicative Random Forests for missing value imputation in
high-dimensional datasets [1.5076964620370268]
データサイエンスと機械学習では、欠落値が一般的な問題である。
我々は,多ラベル分類問題として価値計算の欠落を考慮し,自己複製的ランダム林の連鎖を提案する。
提案アルゴリズムは,データセットの情報のみに基づいて,欠落した値を効果的に解釈する。
論文 参考訳(メタデータ) (2023-01-02T10:53:52Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - An Approximation Method for Fitted Random Forests [0.0]
本研究では,葉にデータポイントを割り当てたランダムフォレストモデルを用いて,各木を近似する手法について検討した。
具体的には,多項ロジスティック回帰の適合が予測品質を保ちながらサイズを減少させるかどうかを考察することから始める。
論文 参考訳(メタデータ) (2022-07-05T17:28:52Z) - Improving the Accuracy-Memory Trade-Off of Random Forests Via
Leaf-Refinement [6.967385165474138]
ランダムフォレスト(RF)は多くの機械学習応用において最先端の分野である。
本研究では,大きな木々のアンサンブルに対して,刈り込みによる改良効果は低下するが,刈り込みはRFよりも全体的な精度とメモリのトレードオフが優れていることを示す。
我々は,森林の葉ノードの勾配降下による予測を改良する,単純だが驚くほど効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T16:06:43Z) - Simplest Streaming Trees [5.7581200996888064]
意思決定の森は多くの実世界のデータ問題に対する主要な機械学習手法である。
現在の実装のほとんどはバッチモードでしか動作せず、より多くのデータが到着しても段階的に更新できない。
新しいデータを与え、成長を続けることで既存の木を更新し、古い木を新しい木に置き換えて、全体の木数を制御する。
論文 参考訳(メタデータ) (2021-10-16T06:06:36Z) - SSSE: Efficiently Erasing Samples from Trained Machine Learning Models [103.43466657962242]
サンプル消去のための効率的かつ効率的なアルゴリズムSSSEを提案する。
ある場合、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングする最適な、しかし実用的でない金の標準と同様に、サンプルをほぼ消去することができる。
論文 参考訳(メタデータ) (2021-07-08T14:17:24Z) - Growing Deep Forests Efficiently with Soft Routing and Learned
Connectivity [79.83903179393164]
この論文は、いくつかの重要な側面で深い森林のアイデアをさらに拡張します。
我々は、ノードがハードバイナリ決定ではなく、確率的ルーティング決定、すなわちソフトルーティングを行う確率的ツリーを採用する。
MNISTデータセットの実験は、私たちの力のある深部森林が[1]、[3]よりも優れたまたは匹敵するパフォーマンスを達成できることを示しています。
論文 参考訳(メタデータ) (2020-12-29T18:05:05Z) - Forest R-CNN: Large-Vocabulary Long-Tailed Object Detection and Instance
Segmentation [75.93960390191262]
我々は、オブジェクトカテゴリ間の関係に関する事前知識を利用して、きめ細かいクラスを粗い親クラスにクラスタリングする。
そこで本研究では,NMS再サンプリング法を提案する。
提案手法はフォレストR-CNNと呼ばれ,ほとんどのオブジェクト認識モデルに適用可能なプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2020-08-13T03:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。