論文の概要: BalDRO: A Distributionally Robust Optimization based Framework for Large Language Model Unlearning
- arxiv url: http://arxiv.org/abs/2601.09172v1
- Date: Wed, 14 Jan 2026 05:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.281001
- Title: BalDRO: A Distributionally Robust Optimization based Framework for Large Language Model Unlearning
- Title(参考訳): BalDRO: 大規模言語モデル学習のための分散ロバスト最適化ベースのフレームワーク
- Authors: Pengyang Shao, Naixin Zhai, Lei Chen, Yonghui Yang, Fengbin Zhu, Xun Yang, Meng Wang,
- Abstract要約: BalDROは、バランスのとれたLLMアンラーニングのための、新しくて効率的なフレームワークである。
我々は、BalDRO-GとBalDRO-DVの2つの効率的な変種を通してBalDROをインスタンス化する。
TOFUとMUSEの実験では、BalDROは品質の忘れ方とモデルユーティリティの両方を大幅に改善している。
- 参考スコア(独自算出の注目度): 24.085628334112652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) increasingly shape online content, removing targeted information from well-trained LLMs (also known as LLM unlearning) has become critical for web governance. A key challenge lies in sample-wise imbalance within the forget set: different samples exhibit widely varying unlearning difficulty, leading to asynchronous forgetting where some knowledge remains insufficiently erased while others become over-forgotten. To address this, we propose BalDRO, a novel and efficient framework for balanced LLM unlearning. BalDRO formulates unlearning as a min-sup process: an inner step identifies a worst-case data distribution that emphasizes hard-to-unlearn samples, while an outer step updates model parameters under this distribution. We instantiate BalDRO via two efficient variants: BalDRO-G, a discrete GroupDRO-based approximation focusing on high-loss subsets, and BalDRO-DV, a continuous Donsker-Varadhan dual method enabling smooth adaptive weighting within standard training pipelines. Experiments on TOFU and MUSE show that BalDRO significantly improves both forgetting quality and model utility over existing methods, and we release code for reproducibility.
- Abstract(参考訳): 大規模言語モデル(LLM)がオンラインコンテンツを形成するにつれて、十分に訓練されたLLM(LLM unlearningとしても知られる)からターゲット情報を取り除くことが、Webガバナンスにとって重要になっている。
異なるサンプルは、広く異なる未学習の難しさを示し、いくつかの知識が不十分に消去され、他のサンプルが過剰に忘れられてしまうことを、非同期に忘れてしまう。
そこで我々は,バランスのとれたLLMアンラーニングのための新しい,効率的なフレームワークであるBalDROを提案する。
BalDRO はアンラーニングを min-sup プロセスとして定式化している: 内部ステップは、難解なサンプルを強調する最悪のデータ分布を識別し、外側ステップは、この分布の下でモデルパラメータを更新する。
BalDRO-Gは、高損失部分集合に焦点をあてた離散グループDROベースの近似であり、BalDRO-DVはドンスカー・バラダン二重法であり、標準の訓練パイプライン内でスムーズな適応重み付けを可能にする。
TOFUとMUSEの実験では、BalDROは既存のメソッドよりも品質とモデルユーティリティを忘れることの両方を著しく改善し、再現性のためのコードをリリースしている。
関連論文リスト
- GDRO: Group-level Reward Post-training Suitable for Diffusion Models [55.948229011478304]
グループレベルの報酬は、モデルを目標とする報酬と整合させるのに成功します。
Group-level Direct Reward Optimization (GDRO)は、グループレベルの報酬アライメントのための新しいトレーニング後のパラダイムである。
GDROは完全なオフライントレーニングをサポートし、画像ロールアウトサンプリングの大幅なコスト削減を実現する。
これは拡散サンプラー非依存であり、取得性に対するODE-to-SDE近似の必要性を排除している。
論文 参考訳(メタデータ) (2026-01-05T11:47:18Z) - Ranking-based Preference Optimization for Diffusion Models from Implicit User Feedback [28.40216934244641]
Diffusion Denoising Ranking Optimization (Diffusion-DRO) は、逆強化学習に基づく新しい好み学習フレームワークである。
拡散DROは、選好学習をランキング問題としてキャストすることで、報酬モデルへの依存を除去する。
オフラインの専門家によるデモとオンラインポリシー生成のネガティブなサンプルを統合することで、人間の好みを効果的に捉えることができる。
論文 参考訳(メタデータ) (2025-10-21T07:22:34Z) - Adversarial Diffusion for Robust Reinforcement Learning [46.44328012099217]
我々はロバスト強化学習(AD-RRL)のための逆拡散を導入する。
AD-RRLは拡散過程を導出し、トレーニング中に最悪の場合の軌跡を生成し、累積リターンの条件値(CVaR)を効果的に最適化する。
標準ベンチマークにおける実験結果から、AD-RRLは既存のロバストなRL法と比較して、優れたロバスト性と性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-09-28T12:34:35Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [65.04475956174959]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLにおける重要な課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータの敵ジャミングに対する感受性である。
本稿では,無線ネットワーク上での大規模言語モデル (LLM) と視覚言語モデル (VLM) を用いたレジリエンスSFLのための物理層フレームワークを開発する。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。