論文の概要: Unlearning at Scale: Implementing the Right to be Forgotten in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.12220v1
- Date: Sun, 17 Aug 2025 03:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.621649
- Title: Unlearning at Scale: Implementing the Right to be Forgotten in Large Language Models
- Title(参考訳): 大規模学習: 大規模言語モデルで忘れられる権利を実装する
- Authors: Abdullah X,
- Abstract要約: 我々のアプローチは最小限のプログラムとして扱い、マイクロバッチレコードにログを出力する。
ピン付きスタックと決定論的カーネルの下で、トレーニングテールを再生すると、トレーニング保持セットと同じパラメータが生成される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the right to be forgotten (GDPR Art. 17) for large language models and frame unlearning as a reproducible systems problem. Our approach treats training as a deterministic program and logs a minimal per-microbatch record (ordered ID hash, RNG seed, learning-rate value, optimizer-step counter, and accumulation boundary). Under a pinned stack and deterministic kernels, replaying the training tail while filtering only the forget closure yields the same parameters as training on the retain set (bit-identical in the training dtype) when preconditions hold. To meet latency and availability constraints, we add complementary paths: (i) exact reverts of recent steps via micro-checkpoints or dense per-step deltas, (ii) cohort-scoped adapter deletion when the base is frozen, and (iii) a curvature-guided anti-update followed by a short retain-tune, audit-gated with escalation to exact replay. We report storage/latency budgets and a toy artifact validating mechanics; in a controlled run that satisfies the preconditions we demonstrate byte-identical equality of model and optimizer states.
- Abstract(参考訳): 本研究では,大規模言語モデルに対する忘れられる権利(GDPR第17条)と再現可能なシステム問題としての非学習の枠組みについて検討する。
本手法は,トレーニングを決定論的プログラムとして扱い,最小限のマイクロバッチレコード(順序付きIDハッシュ,RNGシード,学習速度値,オプティマイザステップカウンタ,蓄積境界)を記録する。
ピン付きスタックと決定論的カーネルの下では、プレコンディションが保持されるときのリザーブセット(トレーニングdtypeではビットID)のトレーニングと同じパラメータを、忘れたクロージャのみをフィルタリングしながらトレーニングテールを再生する。
レイテンシと可用性の制約を満たすため、補完的なパスを追加します。
(i) マイクロチェックポイントや密集したステップ毎のデルタによる最近のステップの正確な逆転。
二 基材が凍結したときのコホートスコープアダプター欠失
三 曲率誘導の反更新、後続の短調のオーディエンスは、正確なリプレイのためにエスカレーションを施した。
モデルとオプティマイザ状態の相互同一性を示す事前条件を満たす制御実行において,ストレージ/レイテンシの予算とおもちゃのアーティファクトを報告する。
関連論文リスト
- PoGO: A Scalable Proof of Useful Work via Quantized Gradient Descent and Merkle Proofs [0.0]
ブロックチェーンコンセンサスのためのProof of Gradient Optimization(PoGO)という設計を提案する。
PoGOマイナーは、大規模な機械学習モデルをトレーニングする検証可能な証拠を生成する。
検証がトレーニングよりも大幅に安価であることを示す実証的コスト分析を提供する。
論文 参考訳(メタデータ) (2025-04-10T08:09:34Z) - Instance-dependent Early Stopping [57.912273923450726]
本稿では,早期停止機構をトレーニングセット全体からインスタンスレベルに適応させる,インスタンス依存早期停止(IES)手法を提案する。
IES は、損失値の2階差が 0 付近の小さな範囲に留まっている場合、インスタンスをマスタードとみなす。
IESは、モデルのテスト精度と転送学習性能を維持したり、わずかに改善したりしながら、バックプロパゲーションインスタンスを10%から50%削減することができる。
論文 参考訳(メタデータ) (2025-02-11T13:34:09Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Adaptive scheduling for adaptive sampling in POS taggers construction [0.27624021966289597]
音声タグ作成における機械学習の新たな手法として適応的サンプリングのための適応的スケジューリングを提案する。
本研究では,関数モデルとともに幾何学的に学習曲線の形状を分析し,任意のタイミングで学習曲線を増減する。
また,評価の一時的なインフレーションを受けるトレーニングデータベースの領域に注意を払い,サンプリングの堅牢性も向上する。
論文 参考訳(メタデータ) (2024-02-04T15:02:17Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation [64.9230895853942]
ドメインの一般化は、ターゲットのドメイン情報を活用することなく、任意に困難にすることができる。
この問題に対処するためにテスト時適応(TTA)手法が提案されている。
本研究では,テスト時間適応(AdaNPC)を行うためにNon-Parametricを採用する。
論文 参考訳(メタデータ) (2023-04-25T04:23:13Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Leveraging Time Irreversibility with Order-Contrastive Pre-training [3.1848820580333737]
時系列データに基づく自己教師付き事前学習のための「順序コントラスト」手法について検討する。
本研究では,順序コントラスト事前学習で学習した表現の下流誤差に対する有限サンプル保証を証明した。
この結果から,特定の分布クラスや下流タスクのために設計された事前学習手法が,自己指導型学習の性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2021-11-04T02:56:52Z) - Overcoming Catastrophic Forgetting via Direction-Constrained
Optimization [43.53836230865248]
連続的な学習フレームワークにおいて,分類ネットワークの固定アーキテクチャを用いてディープラーニングモデルを学習するための最適化アルゴリズムの新たな設計について検討する。
本稿では,方向制約付き最適化(DCO)法について述べる。各タスクに対して,対応する最上向きの主方向を近似する線形オートエンコーダを導入する。
我々のアルゴリズムは、他の最先端の正規化に基づく連続学習法と比較して好適に機能することを示した。
論文 参考訳(メタデータ) (2020-11-25T08:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。