論文の概要: Exclusive Unlearning
- arxiv url: http://arxiv.org/abs/2604.06154v1
- Date: Tue, 07 Apr 2026 17:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.981385
- Title: Exclusive Unlearning
- Title(参考訳): 排他的未学習
- Authors: Mutsumi Sasaki, Kouta Nakayama, Yusuke Miyao, Yohei Oseki, Masaru Isonuma,
- Abstract要約: 排他的アンラーニングは、私たちが保持したい知識や表現以外の全てを広く忘れることによって、幅広い害を取り除くことを目的としています。
医学や数学などの特定の分野に関する多様な指示に応答する能力を維持しつつ、脱獄を含む幅広い入力に対する安全性を確保するモデルを得ることが可能である。
- 参考スコア(独自算出の注目度): 27.347889800662145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When introducing Large Language Models (LLMs) into industrial applications, such as healthcare and education, the risk of generating harmful content becomes a significant challenge. While existing machine unlearning methods can erase specific harmful knowledge and expressions, diverse harmful content makes comprehensive removal difficult. In this study, instead of individually listing targets for forgetting, we propose Exclusive Unlearning (EU), which aims for broad harm removal by extensively forgetting everything except for the knowledge and expressions we wish to retain. We demonstrate that through Exclusive Unlearning, it is possible to obtain a model that ensures safety against a wide range of inputs, including jailbreaks, while maintaining the ability to respond to diverse instructions related to specific domains such as medicine and mathematics.
- Abstract(参考訳): 医療や教育などの産業アプリケーションに大規模言語モデル(LLM)を導入する場合、有害なコンテンツを生成するリスクは重大な課題となる。
既存の機械学習手法では、特定の有害な知識や表現を消去することができるが、多様な有害なコンテンツは包括的除去を困難にしている。
本研究では,忘れる対象を個別に列挙する代わりに,私たちが保持したい知識や表現以外の全てを広く忘れることにより,広範囲の害を取り除くことを目的とした排他的アンラーニング(EU)を提案する。
本研究では,排他的アンラーニング(Exclusive Unlearning)を通じて,医学や数学などの特定の分野に関する多様な指示に応答する能力を維持しつつ,脱獄を含む幅広い入力に対する安全性を確保するモデルを得ることが可能であることを実証する。
関連論文リスト
- Understanding the Dilemma of Unlearning for Large Language Models [50.54260066313032]
Unlearningは、大きな言語モデル(LLM)から特定の知識を取り除こうとしている。
提案するunPactは,帰納的帰属とコントリビューショントラッキングによるアンラーニングのための解釈可能なフレームワークである。
論文 参考訳(メタデータ) (2025-09-29T12:15:19Z) - Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - Open Problems in Machine Unlearning for AI Safety [61.43515658834902]
特定の種類の知識を選択的に忘れたり、抑圧したりするマシンアンラーニングは、プライバシとデータ削除タスクの約束を示している。
本稿では,アンラーニングがAI安全性の包括的ソリューションとして機能することを防止するための重要な制約を特定する。
論文 参考訳(メタデータ) (2025-01-09T03:59:10Z) - Machine Unlearning Doesn't Do What You Think: Lessons for Generative AI Policy and Research [186.53450963176968]
「マシーン・アンラーニング」は、法的・道徳的な理由から問題となるAIモデルにおけるコンテンツの存在を緩和するための解決策である。
ML研究者や政策立案者がこれらの課題について厳格に考えるためのフレームワークを提供する。
論文 参考訳(メタデータ) (2024-12-09T20:18:43Z) - An Adversarial Perspective on Machine Unlearning for AI Safety [22.639683142004372]
この作業は、アンラーニングと従来のトレーニング後の安全性の根本的な違いに挑戦する。
既存のjailbreakメソッドは、これまで未学習に対して効果がないと報告されていたが、慎重に適用した場合に成功できることを実証する。
例えば、アクティベーション空間における10の無関係な例を微調整したり、特定の方向を除去することで、RMUで編集されたモデルに対して最も危険な能力を回復できることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:32:19Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z) - Inspect, Understand, Overcome: A Survey of Practical Methods for AI
Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。
近年,これらの安全対策を目的とした最先端技術動物園が出現している。
本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文 参考訳(メタデータ) (2021-04-29T09:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。