論文の概要: WAGLE: Strategic Weight Attribution for Effective and Modular Unlearning in Large Language Models
- arxiv url: http://arxiv.org/abs/2410.17509v1
- Date: Wed, 23 Oct 2024 02:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:55:25.955009
- Title: WAGLE: Strategic Weight Attribution for Effective and Modular Unlearning in Large Language Models
- Title(参考訳): WAGLE:大規模言語モデルにおける効果的なモジュール型アンラーニングのための戦略的ウェイト属性
- Authors: Jinghan Jia, Jiancheng Liu, Yihua Zhang, Parikshit Ram, Nathalie Baracaldo, Sijia Liu,
- Abstract要約: 本稿では,大規模言語モデル(LLM)におけるモデルウェイトと未学習プロセスの相互作用について考察する。
重みの「影響」と「影響」とを相互に関連付けることによって,重みの「影響」を記憶・保持するLLMアンラーニング手法であるWAGLEを設計する。
- 参考スコア(独自算出の注目度): 26.07431044262102
- License:
- Abstract: The need for effective unlearning mechanisms in large language models (LLMs) is increasingly urgent, driven by the necessity to adhere to data regulations and foster ethical generative AI practices. Despite growing interest of LLM unlearning, much of the existing research has focused on varied unlearning method designs to boost effectiveness and efficiency. However, the inherent relationship between model weights and LLM unlearning has not been extensively examined. In this paper, we systematically explore how model weights interact with unlearning processes in LLMs and we design the weight attribution-guided LLM unlearning method, WAGLE, which unveils the interconnections between 'influence' of weights and 'influence' of data to forget and retain in LLM generation. By strategically guiding the LLM unlearning across different types of unlearning methods and tasks, WAGLE can erase the undesired content, while maintaining the performance of the original tasks. We refer to the weight attribution-guided LLM unlearning method as WAGLE, which unveils the interconnections between 'influence' of weights and 'influence' of data to forget and retain in LLM generation. Our extensive experiments show that WAGLE boosts unlearning performance across a range of LLM unlearning methods such as gradient difference and (negative) preference optimization, applications such as fictitious unlearning, malicious use prevention, and copyrighted information removal, and models including Zephyr-7b-beta and Llama2-7b. To the best of our knowledge, our work offers the first principled method for attributing and pinpointing the influential weights in enhancing LLM unlearning. It stands in contrast to previous methods that lack weight attribution and simpler weight attribution techniques.
- Abstract(参考訳): 大規模言語モデル(LLM)における効果的なアンラーニングメカニズムの必要性は、データ規制に準拠し、倫理的な生成AIプラクティスを育む必要性によって、ますます緊急になっている。
LLMアンラーニングの関心が高まっているにもかかわらず、既存の研究の多くは、有効性と効率を高めるために様々なアンラーニング手法の設計に焦点を当てている。
しかし, モデル重みとLLMアンラーニングの関係は明らかになっていない。
本稿では,LLMにおける非学習過程とモデル重みがどう相互作用するかを体系的に検討し,LLM生成における重みの「影響」と「影響」との相互関係を明らかにする重み属性誘導型LLMアンラーニング手法であるWAGLEを設計する。
異なるタイプの学習方法やタスクにまたがってLLMアンラーニングを戦略的に導くことで、WAGLEは元のタスクのパフォーマンスを維持しながら、望ましくないコンテンツを消去することができる。
本稿では、重みの「影響」とLLM生成を忘れ、保持するデータの「影響」との相互関係を明らかにする、重みの帰属誘導型LLMアンラーニング手法をWAGLEと呼ぶ。
我々の広範な実験により、WAGLEは、勾配差や(負の)選好最適化、架空の未学習、悪意のある使用防止、著作権情報削除などの応用、Zephyr-7b-betaやLlama2-7bといったモデルなど、様々なLLM未学習の手法において、未学習のパフォーマンスを向上させることが示されている。
我々の知識を最大限に活用するために、我々の研究は、LLMアンラーニングの強化における影響力のある重みの帰属と特定のための、最初の原則化された方法を提供する。
従来の重み属性の欠如や、より単純な重み属性のテクニックとは対照的である。
関連論文リスト
- From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - ALU: Agentic LLM Unlearning [9.934258340998047]
大規模言語モデル(LLM)における情報除去または抑制は、AI規制、法的コンプライアンス、安全性、プライバシに有用な、望ましい機能である。
現在のLLMアンラーニング手法は、これらの目的の競合する性質のため、未学習の有効性と実用性のバランスをとるのに苦労している。
LLMアンラーニングに対するマルチエージェント・リトレインフリー・モデル非依存アプローチであるALU法を提案する。
論文 参考訳(メタデータ) (2025-02-01T11:45:44Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - SOUL: Unlocking the Power of Second-Order Optimization for LLM Unlearning [30.25610464801255]
大規模言語モデル(LLM)は、データ規則や倫理的AIプラクティスに従うための効果的な非学習メカニズムの必要性を強調している。
LLMアンラーニングの研究への関心は高まりつつあるが、LLMアンラーニングの選択の影響は未解明のままである。
我々はLLMアンラーニングにおける選択の重要性を初めて明らかにし、二階最適化と影響アンラーニングの明確な関連性を確立した。
論文 参考訳(メタデータ) (2024-04-28T16:31:32Z) - Offset Unlearning for Large Language Models [49.851093293780615]
アンラーニングは、問題のあるトレーニングデータに影響された大規模言語モデルの潜在的な治療法として浮上した。
ブラックボックスLLMのためのオフセットアンラーニングフレームワークである$delta$-unlearningを提案する。
実験によると、$delta$-unlearningは、一般的なアウトオブスコープタスクにおいて、同じような、あるいはより強力なパフォーマンスを維持しながら、ターゲットデータを効果的に解放することができる。
論文 参考訳(メタデータ) (2024-04-17T03:39:51Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。