論文の概要: Online Gradient Boosting Decision Tree: In-Place Updates for Efficient Adding/Deleting Data
- arxiv url: http://arxiv.org/abs/2502.01634v1
- Date: Mon, 03 Feb 2025 18:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:06:24.410881
- Title: Online Gradient Boosting Decision Tree: In-Place Updates for Efficient Adding/Deleting Data
- Title(参考訳): オンラインのGradient Boosting Decision Tree: データの効率的な追加/削除のためのインページ更新
- Authors: Huawei Lin, Jun Woo Chung, Yingjie Lao, Weijie Zhao,
- Abstract要約: 本稿では,段階学習と退行学習の両方をサポートするGBDTのための効率的なオンライン学習フレームワークを提案する。
学習コストを削減するため、我々はフレームワークに最適化の集合を提示し、オンザフライで少量のデータを追加または削除できるようにした。
バックドア攻撃の結果は、我々のフレームワークが十分に訓練されたモデルでバックドアを注入して除去できることを示している。
- 参考スコア(独自算出の注目度): 18.21562008536426
- License:
- Abstract: Gradient Boosting Decision Tree (GBDT) is one of the most popular machine learning models in various applications. However, in the traditional settings, all data should be simultaneously accessed in the training procedure: it does not allow to add or delete any data instances after training. In this paper, we propose an efficient online learning framework for GBDT supporting both incremental and decremental learning. To the best of our knowledge, this is the first work that considers an in-place unified incremental and decremental learning on GBDT. To reduce the learning cost, we present a collection of optimizations for our framework, so that it can add or delete a small fraction of data on the fly. We theoretically show the relationship between the hyper-parameters of the proposed optimizations, which enables trading off accuracy and cost on incremental and decremental learning. The backdoor attack results show that our framework can successfully inject and remove backdoor in a well-trained model using incremental and decremental learning, and the empirical results on public datasets confirm the effectiveness and efficiency of our proposed online learning framework and optimizations.
- Abstract(参考訳): Gradient Boosting Decision Tree (GBDT)は、様々なアプリケーションで最も人気のある機械学習モデルの一つである。
しかし、従来の設定では、すべてのデータをトレーニング手順で同時にアクセスする必要がある。
本稿では,インクリメンタル学習とデクリメンタル学習の両方をサポートするGBDTのための効率的なオンライン学習フレームワークを提案する。
私たちの知る限りでは、GBDT上でインプレースで統合されたインクリメンタルな学習とデクリメンタルな学習を考えるのは、これが初めてです。
学習コストを削減するため、我々はフレームワークに最適化の集合を提示し、オンザフライで少量のデータを追加または削除できるようにした。
提案した最適化のハイパーパラメータ間の関係を理論的に示し,漸進的および退行的学習における精度とコストのトレードオフを可能にする。
バックドアアタックの結果から,インクリメンタル学習とデクリメンタル学習を併用した学習モデルによるバックドアの注入と除去に成功し,提案したオンライン学習フレームワークと最適化の有効性と効率性を確認した。
関連論文リスト
- Towards Scalable Exact Machine Unlearning Using Parameter-Efficient Fine-Tuning [35.681853074122735]
S3T(Sequence-aware Sharded Sliced Training)を導入した。
S3Tは、モデルの性能への影響を最小限に抑えつつ、正確な未学習システムの削除能力を高めるように設計されている。
我々は、S3Tが幅広い設定におけるベースラインに比べて優れた削除能力と性能を発揮できることを実証した。
論文 参考訳(メタデータ) (2024-06-24T01:45:13Z) - Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping [53.454408491386886]
自己アライメントのブートストラップは、シングルラウンドアプローチをはるかに上回る。
モデルが継続的に強化した複数ショット機能を活用してゼロまたはワンショットのパフォーマンスを向上するステップ・オン・フィート・チューニング(SOFT)を提案する。
簡単な学習法に基づいて、自己アライメントの性能をさらに向上させるSOFT+を提案する。
論文 参考訳(メタデータ) (2024-02-12T12:30:42Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Selectivity Drives Productivity: Efficient Dataset Pruning for Enhanced
Transfer Learning [66.20311762506702]
データセットプルーニング(DP)は、データ効率を改善する効果的な方法として登場した。
本稿では,ラベルマッピングと特徴マッピングという2つの新しいDP手法を提案する。
ダウンストリーム性能を犠牲にすることなく、ソースデータクラスを最大40%まで刈り取ることができることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:07:49Z) - Recommendation Unlearning via Influence Function [42.4931807753579]
本稿では,新しいインフルエンス関数に基づく推薦アンラーニング(IFRU, Recommendation Unlearning)フレームワークを提案する。
IFRUは、フルリトレーニングに匹敵するレコメンデーションパフォーマンスを持つリトレーニングベースの手法と比較して、250倍以上のアクセラレーションを実現している。
論文 参考訳(メタデータ) (2023-07-05T09:42:51Z) - CLIP: Train Faster with Less Data [3.2575001434344286]
ディープラーニングモデルは、トレーニングに膨大な量のデータを必要とします。
近年、機械学習はモデル中心のアプローチからデータ中心のアプローチへとシフトしている。
CLIP(CLIP, Curriculum Learning with Iterative data Pruning)を提案する。
論文 参考訳(メタデータ) (2022-12-02T21:29:48Z) - Training Efficiency and Robustness in Deep Learning [2.6451769337566406]
ディープラーニングモデルのトレーニング効率と堅牢性を改善するためのアプローチについて検討する。
より情報的なトレーニングデータに基づく学習の優先順位付けは収束速度を高め、テストデータに対する一般化性能を向上させる。
トレーニングデータのサンプリングに対する冗長性を考慮した修正により、トレーニング速度が向上し、トレーニング信号の多様性を検出する効率的な方法が開発されていることを示す。
論文 参考訳(メタデータ) (2021-12-02T17:11:33Z) - Efficient Contrastive Learning via Novel Data Augmentation and
Curriculum Learning [11.138005656807968]
本稿では,メモリ効率の良い連続事前学習法であるEfficientCLを紹介する。
データ拡張には、カットオフとPCAジッタリングという2種類の操作を順次積み重ねる。
事前学習の段階が進む一方で,各難易度を増進してカリキュラム学習を適用する。
論文 参考訳(メタデータ) (2021-09-10T05:49:55Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。