論文の概要: GRU: Mitigating the Trade-off between Unlearning and Retention for LLMs
- arxiv url: http://arxiv.org/abs/2503.09117v3
- Date: Thu, 05 Jun 2025 13:34:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 16:56:39.478495
- Title: GRU: Mitigating the Trade-off between Unlearning and Retention for LLMs
- Title(参考訳): GRU:LLMの非学習と保持のトレードオフを緩和する
- Authors: Yue Wang, Qizhou Wang, Feng Liu, Wei Huang, Yali Du, Xiaojiang Du, Bo Han,
- Abstract要約: 非学習過程における更新の方向を規定する改良されたフレームワークであるグラデーション・リクティファイド・アンラーニング(GRU)を提案する。
GRUは簡単に実装でき、様々な確立された未学習ベンチマークで実践的な効果を示す。
- 参考スコア(独自算出の注目度): 34.90826139012299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) unlearning has demonstrated its essential role in removing privacy and copyright-related responses, crucial for their legal and safe applications. However, the pursuit of complete unlearning often comes with substantial costs due to its compromises in their general functionality, leading to a notorious trade-off between unlearning and retention. It motivates this paper to explore enhanced unlearning schemes that can mitigate this trade-off. Specifically, we propose Gradient Rectified Unlearning (GRU), an improved framework that regulates the directions of gradient updates during the unlearning procedure such that their side impacts on other, unrelated responses can be minimized. GRU is easy and general to implement, demonstrating practical effectiveness across a variety of well-established unlearning benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)のアンラーニングは、プライバシーと著作権に関する応答を除去する上で重要な役割を担っている。
しかしながら、完全な未学習の追求には、その一般的な機能に妥協があるため、かなりのコストが伴うことが多く、未学習と継続の間に悪名高いトレードオフが生じている。
この論文は、このトレードオフを緩和できる強化されたアンラーニングスキームを探求する動機となっている。
具体的には、非学習手順中の勾配更新の方向を規定する改良されたフレームワークであるGradient Rectified Unlearning (GRU)を提案する。
GRUは簡単に実装でき、様々な確立された未学習ベンチマークで実践的な効果を示す。
関連論文リスト
- GUARD: Guided Unlearning and Retention via Data Attribution for Large Language Models [23.667160042806064]
GUARDは、データ属性を通じて学習と保持をガイドする新しいフレームワークである。
GUARDは中核として、LLMアンラーニングに適した軽量なプロキシデータ属性メトリックを導入している。
我々は,GUARDが従来手法に匹敵するメトリクスを忘れつつ,保持性を大幅に向上させるという厳密な理論的保証を提供する。
論文 参考訳(メタデータ) (2025-06-12T17:49:09Z) - From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [76.09281171131941]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z) - Efficient Machine Unlearning by Model Splitting and Core Sample Selection [4.634454848598446]
我々は、より効率的で正確なアンラーニング戦略を可能にする標準のアンラーニング指標の変種を導入する。
また、多くの場合、正確な未学習を可能にする未学習の訓練手順も提示する。
正確なアンラーニングが実現不可能な場合、MaxRRは、完全なリトレーニングによって達成されたプロパティと密接にマッチした、効率的なアンラーニングをサポートします。
論文 参考訳(メタデータ) (2025-05-11T15:42:11Z) - GRAIL: Gradient-Based Adaptive Unlearning for Privacy and Copyright in LLMs [26.13653211674955]
広範囲なデータセットでトレーニングされた大規模言語モデル(LLM)は、しばしばセンシティブな情報を学ぶ。
望ましくない情報を除去するために、スクラッチからモデル全体をリトレーニングすることは、費用がかかることと実用的でないことの両方である。
本稿では,GRAIL(AdaptIve unLearning)を提案する。
論文 参考訳(メタデータ) (2025-04-17T06:16:32Z) - SAEs $\textit{Can}$ Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs [24.48560556882878]
精度未学習のための新しい手法である$textbfDynamic DAE Guardrails$ (DSG)を紹介した。
実験の結果,DSGは未学習を先導する手法よりもかなり優れていた。
論文 参考訳(メタデータ) (2025-04-11T01:24:03Z) - Rethinking LLM Unlearning Objectives: A Gradient Perspective and Go Beyond [39.39558417665764]
大きな言語モデル(LLM)は、著作権やプライバシー侵害などの潜在的なリスクを特定するために厳格な監査を受けなければならない。
本稿では,学習対象がモデル性能に与える影響を定量化する勾配効果(G効果)のツールキットを提案する。
論文 参考訳(メタデータ) (2025-02-26T16:59:21Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - CGLearn: Consistent Gradient-Based Learning for Out-of-Distribution Generalization [0.7366405857677226]
本研究では,様々な環境における勾配の一致に依存する,単純だが強力なアプローチCGLearnを提案する。
提案手法は, 線形および非線形の条件下での最先端手法と比較して, 優れた性能を示す。
合成データセットと実世界のデータセットの総合的な実験は、様々なシナリオにおけるその有効性を強調している。
論文 参考訳(メタデータ) (2024-11-09T02:36:39Z) - Dataset Awareness is not Enough: Implementing Sample-level Tail Encouragement in Long-tailed Self-supervised Learning [16.110763554788445]
擬似ラベル情報を利用して動的温度と再重み付け戦略を推進し、自己教師付き長期学習に擬似ラベルを導入する。
我々は,温度パラメータにおける量認識の欠如を分析し,この不足を補うために再重み付けを用いて,サンプルレベルで最適なトレーニングパターンを実現する。
論文 参考訳(メタデータ) (2024-10-30T10:25:22Z) - A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - RobustCalib: Robust Lidar-Camera Extrinsic Calibration with Consistency
Learning [42.90987864456673]
LiDARカメラ外部推定の現在の手法は、オフラインの目標と人間の努力に依存している。
本稿では,外因性キャリブレーション問題に頑健で自動的で単発的な方法で対処する新しい手法を提案する。
我々は,異なるデータセットの総合的な実験を行い,本手法が正確かつ堅牢な性能を実現することを示す。
論文 参考訳(メタデータ) (2023-12-02T09:29:50Z) - DELTA: Dynamic Embedding Learning with Truncated Conscious Attention for
CTR Prediction [61.68415731896613]
CTR(Click-Through Rate)予測は、製品とコンテンツの推奨において重要なタスクである。
本稿では,CTR予測のための動的埋め込み学習を実現するモデルを提案する。
論文 参考訳(メタデータ) (2023-05-03T12:34:45Z) - Magnitude Matters: Fixing SIGNSGD Through Magnitude-Aware Sparsification
in the Presence of Data Heterogeneity [60.791736094073]
通信オーバーヘッドは、ディープニューラルネットワークの分散トレーニングにおいて、大きなボトルネックのひとつになっています。
本稿では,SIGNSGDの非収束問題に対処する等級化方式を提案する。
提案手法は,Fashion-MNIST, CIFAR-10, CIFAR-100データセットを用いて検証した。
論文 参考訳(メタデータ) (2023-02-19T17:42:35Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。