論文の概要: Unlearning Imperative: Securing Trustworthy and Responsible LLMs through Engineered Forgetting
- arxiv url: http://arxiv.org/abs/2511.09855v1
- Date: Fri, 14 Nov 2025 01:13:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.531018
- Title: Unlearning Imperative: Securing Trustworthy and Responsible LLMs through Engineered Forgetting
- Title(参考訳): Unlearning Imperative - エンジニアによる予測による信頼性と責任を持ったLLMの確保
- Authors: James Jin Kang, Dang Bui, Thanh Pham, Huo-Chong Ling,
- Abstract要約: 機密性の高いドメインの大規模な言語モデルは、プライベート情報が永久に忘れられることを保証できません。
最初からのトレーニングは違法に費用がかかる。
既存の未学習のメソッドは断片化され、検証が困難で、回復に脆弱であることが多い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing use of large language models in sensitive domains has exposed a critical weakness: the inability to ensure that private information can be permanently forgotten. Yet these systems still lack reliable mechanisms to guarantee that sensitive information can be permanently removed once it has been used. Retraining from the beginning is prohibitively costly, and existing unlearning methods remain fragmented, difficult to verify, and often vulnerable to recovery. This paper surveys recent research on machine unlearning for LLMs and considers how far current approaches can address these challenges. We review methods for evaluating whether forgetting has occurred, the resilience of unlearned models against adversarial attacks, and mechanisms that can support user trust when model complexity or proprietary limits restrict transparency. Technical solutions such as differential privacy, homomorphic encryption, federated learning, and ephemeral memory are examined alongside institutional safeguards including auditing practices and regulatory frameworks. The review finds steady progress, but robust and verifiable unlearning is still unresolved. Efficient techniques that avoid costly retraining, stronger defenses against adversarial recovery, and governance structures that reinforce accountability are needed if LLMs are to be deployed safely in sensitive applications. By integrating technical and organizational perspectives, this study outlines a pathway toward AI systems that can be required to forget, while maintaining both privacy and public trust.
- Abstract(参考訳): 機密性の高いドメインにおける大規模言語モデルの利用の増加は、重大な弱点を露呈している。
しかし、これらのシステムには、機密情報が使用後に永久に削除可能であることを保証するための信頼性の高いメカニズムがない。
最初からのトレーニングは違法にコストがかかり、既存の未学習のメソッドは断片化され、検証が困難で、回復に脆弱であることが多い。
本稿では,LLMの機械学習に関する最近の研究を概観し,現状のアプローチがこれらの課題にどこまで対処できるかを考察する。
モデル複雑性やプロプライエタリな制限が透明性を制限する場合に,ユーザ信頼を支援するメカニズムについて検討する。
差分プライバシー、同相暗号、フェデレーションラーニング、短命記憶といった技術的ソリューションは、監査の慣行や規制の枠組みを含む制度上の保護とともに検討される。
レビューは着実に進歩しているが、堅牢で検証可能な未学習はまだ未解決だ。
LLMが機密性の高いアプリケーションに安全にデプロイされるためには、コスト削減、敵の回復に対する強力な防御、説明責任を強化するガバナンス構造が必要とされる。
技術的および組織的な視点を統合することで、プライバシと公的信頼の両方を維持しながら、忘れるべきAIシステムへの道筋を概説する。
関連論文リスト
- Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - Pre-Forgettable Models: Prompt Learning as a Native Mechanism for Unlearning [9.512928441517811]
ファンデーションモデルは、様々なモダリティやタスクにまたがる堅牢で伝達可能な表現を可能にすることによって、マルチメディア分析を変革してきた。
リトレーニング、アクティベーション編集、蒸留を含む従来の未学習のアプローチは、しばしば高価で脆弱で、リアルタイムまたは継続的な進化するシステムに不適である。
本稿では,知識の獲得と除去を1つの学習段階内に統一する,プロンプトベースの学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-05T13:28:04Z) - Does Machine Unlearning Truly Remove Knowledge? [80.83986295685128]
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。
異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文 参考訳(メタデータ) (2025-05-29T09:19:07Z) - DP-RTFL: Differentially Private Resilient Temporal Federated Learning for Trustworthy AI in Regulated Industries [0.0]
本稿では,DP-RTFL(Disferially Private Resilient Temporal Federated Learning)を紹介する。
トレーニングの継続性、正確な状態回復、強力なデータプライバシを保証するように設計されている。
このフレームワークは、機密性の高い財務データを使用した信用リスク評価のような重要なアプリケーションに特に適している。
論文 参考訳(メタデータ) (2025-05-27T16:30:25Z) - Information Retrieval Induced Safety Degradation in AI Agents [52.15553901577888]
本研究では,検索アクセスの拡大がモデル信頼性,バイアス伝搬,有害コンテンツ生成に与える影響について検討した。
整列 LLM 上に構築された検索可能なエージェントは、検索なしでの無検閲モデルよりも安全でない振る舞いをすることが多い。
これらの発見は、検索可能でますます自律的なAIシステムの公正性と信頼性を確保するための堅牢な緩和戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-20T11:21:40Z) - FEDLAD: Federated Evaluation of Deep Leakage Attacks and Defenses [50.921333548391345]
フェデレーテッド・ラーニング(Federated Learning)は、分散型機械学習パラダイムをプライバシ保護するものだ。
近年の研究では、Deep Leakageと呼ばれる勾配技術によって、民間の真実データを復元できることが判明している。
本稿では、Deep Leakage攻撃と防御を評価するための総合的なベンチマークであるFEDLAD Framework(Federated Evaluation of Deep Leakage Attacks and Defenses)を紹介する。
論文 参考訳(メタデータ) (2024-11-05T11:42:26Z) - Threats, Attacks, and Defenses in Machine Unlearning: A Survey [14.03428437751312]
マシン・アンラーニング(MU)は、Safe AIを達成する可能性から、最近かなりの注目を集めている。
この調査は、機械学習における脅威、攻撃、防衛に関する広範な研究のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-03-20T15:40:18Z) - RoFL: Attestable Robustness for Secure Federated Learning [59.63865074749391]
フェデレートラーニング(Federated Learning)により、多数のクライアントが、プライベートデータを共有することなく、ジョイントモデルをトレーニングできる。
クライアントのアップデートの機密性を保証するため、フェデレートラーニングシステムはセキュアなアグリゲーションを採用している。
悪意のあるクライアントに対する堅牢性を向上させるセキュアなフェデレート学習システムであるRoFLを提案する。
論文 参考訳(メタデータ) (2021-07-07T15:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。