論文の概要: Unlearning Offline Stochastic Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2605.00638v1
- Date: Fri, 01 May 2026 13:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.960259
- Title: Unlearning Offline Stochastic Multi-Armed Bandits
- Title(参考訳): オフライン確率的マルチアーマッドバンドの学習
- Authors: Zichun Ye, Runqi Wang, Xuchuang Wang, Xutong Liu, Shuai Li, Mohammad Hajiesmaili,
- Abstract要約: 学習モデルからデータポイントを解放し、データ削除要求を処理し、完全なリトレーニングなしにプライバシリスクを軽減する、原則化された方法を提供することを目的としています。
我々は,2つのデータ生成モデルの下で,シングルソースとマルチソースのアンラーニングシナリオを体系的に研究する。
データ構造とプライバシ制約に応じてそれらを切り替える適応アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 25.148290301136047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning aims to unlearn data points from a learned model, offering a principled way to process data-deletion requests and mitigate privacy risks without full retraining. Prior work has mainly studied unsupervised / supervised machine unlearning, leaving unlearning for sequential decision-making systems far less understood. We initiate the first study of a foundational sequential decision-making problem: offline stochastic multi-armed bandits (MAB). We formalize the privacy constraint for offline MAB and measure utility by the post-unlearning decision quality. We conduct a systematic study of both single- and multi-source unlearning scenarios under two data-generation models, the fixed-sample model and the distribution model. For these settings, our algorithmic design is built on two canonical base algorithms: Gaussian mechanism and rollback, and we propose adaptive algorithms that switch between them according to the data regime and privacy constraint. We further introduce a mixing procedure that elucidates the rationale behind these baselines. We provide performance guarantees across the above settings and establish lower bounds under both dataset models. Experiments validate the predicted tradeoffs and demonstrate the effectiveness of the proposed methods.
- Abstract(参考訳): 機械学習の目的は、学習モデルからデータポイントを解放することであり、データ削除要求を処理し、完全な再トレーニングなしにプライバシーリスクを軽減するための原則化された方法を提供する。
従来の研究は主に教師なし/教師なしの機械学習を研究しており、シーケンシャルな意思決定システムではアンラーニングがほとんど理解されていなかった。
本研究は,オフライン確率的マルチアームバンディット(MAB)という,基本的な逐次的意思決定問題の最初の研究を開始する。
オフラインMABのプライバシー制約を定式化し、学習後の意思決定品質によって実用性を測定する。
我々は,固定サンプルモデルと分散モデルという2つのデータ生成モデルの下で,シングルソースとマルチソースの未学習シナリオを体系的に研究する。
これらの設定のために、我々のアルゴリズム設計は、ガウス機構とロールバックという2つの標準ベースアルゴリズムに基づいて構築されており、データ構造とプライバシ制約に応じてそれらを切り替える適応アルゴリズムを提案する。
さらに,これらのベースラインの背後にある理論的根拠を解明する混合手順を導入する。
上記の設定全体で性能保証を提供し、両方のデータセットモデルの下で低いバウンダリを確立する。
予測トレードオフを検証し,提案手法の有効性を実証する実験を行った。
関連論文リスト
- Heterogeneous Self-Supervised Acoustic Pre-Training with Local Constraints [64.15709757611369]
異種データを扱うための自己教師付き事前学習手法を提案する。
提案手法は、下流の教師付き微調整タスクに対する自己教師付き事前訓練モデルの適応性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2025-08-27T15:48:50Z) - Zero-Shot Machine Unlearning with Proxy Adversarial Data Generation [23.668928015009087]
機械学習は、訓練されたモデルから特定のサンプルの影響を取り除くことを目的としている。
既存の未学習アルゴリズムは、この問題を防ぐために残りのデータに依存する。
本稿では,このギャップを埋めるための新しいフレームワークであるZS-PAGを提案する。
論文 参考訳(メタデータ) (2025-07-29T12:16:55Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Federated Continual Learning Goes Online: Uncertainty-Aware Memory Management for Vision Tasks and Beyond [13.864609787260298]
本稿では,破滅的な記憶を解消するための不確実性を考慮したメモリベース手法を提案する。
特定の特性を持つサンプルを検索し、そのようなサンプル上でモデルを再訓練することで、このアプローチの可能性を実証する。
論文 参考訳(メタデータ) (2024-05-29T09:29:39Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Learn then Test: Calibrating Predictive Algorithms to Achieve Risk
Control [67.52000805944924]
Learn then Test (LTT)は、機械学習モデルを校正するフレームワークである。
私たちの主な洞察は、リスクコントロール問題を複数の仮説テストとして再設計することです。
我々は、コンピュータビジョンの詳細な実例を用いて、コア機械学習タスクの新しいキャリブレーション手法を提供するために、我々のフレームワークを使用します。
論文 参考訳(メタデータ) (2021-10-03T17:42:03Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。