Fugu-MT 論文翻訳(概要): Towards Safer Large Language Models through Machine Unlearning

論文の概要: Towards Safer Large Language Models through Machine Unlearning

arxiv url: http://arxiv.org/abs/2402.10058v1
Date: Thu, 15 Feb 2024 16:28:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 15:00:57.067634
Title: Towards Safer Large Language Models through Machine Unlearning
Title（参考訳）: 機械学習による大規模言語モデル構築に向けて
Authors: Zheyuan Liu, Guangyao Dou, Zhaoxuan Tan, Yijun Tian, Meng Jiang
Abstract要約: SKU(Selective Knowledge Unlearning)は、有害な知識を排除し、通常のプロンプトで実用性を維持するために設計されている。第1段階は、モデル内の有害な知識を特定し、取得することを目的としており、第2段階は、この知識を取り除くことを目的としている。本実験は,有害情報除去と有効性維持のバランス点をSKUが特定できることを実証した。
参考スコア（独自算出の注目度）: 21.133585620874808
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: The rapid advancement of Large Language Models (LLMs) has demonstrated their vast potential across various domains, attributed to their extensive pretraining knowledge and exceptional generalizability. However, LLMs often encounter challenges in generating harmful content when faced with problematic prompts. To address this problem, existing work attempted to implement a gradient ascent based approach to prevent LLMs from producing harmful output. While these methods can be effective, they frequently impact the model utility in responding to normal prompts. To address this gap, we introduce Selective Knowledge negation Unlearning (SKU), a novel unlearning framework for LLMs, designed to eliminate harmful knowledge while preserving utility on normal prompts. Specifically, SKU is consisted of two stages: harmful knowledge acquisition stage and knowledge negation stage. The first stage aims to identify and acquire harmful knowledge within the model, whereas the second is dedicated to remove this knowledge. SKU selectively isolates and removes harmful knowledge in model parameters, ensuring the model's performance remains robust on normal prompts. Our experiments conducted across various LLM architectures demonstrate that SKU identifies a good balance point between removing harmful information and preserving utility.
Abstract（参考訳）: LLM(Large Language Models)の急速な進歩は、その膨大な事前学習知識と例外的な一般化性によって、様々な領域にまたがる大きな可能性を実証している。しかし、LSMは問題のあるプロンプトに直面すると有害なコンテンツを生成するという課題に遭遇することが多い。この問題に対処するため、既存の研究はLSMが有害な出力を発生させないために勾配上昇に基づくアプローチを導入しようとした。これらの手法は有効であるが、通常のプロンプトに対応する際にしばしばモデルユーティリティに影響を及ぼす。このギャップに対処するために、我々は、通常のプロンプトで実用性を維持しながら有害な知識を排除し、LLMのための新しい非学習フレームワークである選択的知識否定学習(SKU)を導入する。具体的には、SKUは有害な知識獲得段階と知識否定段階の2段階からなる。第1段階は、モデル内で有害な知識を特定し、取得することを目的としているが、第2段階は、この知識を取り除こうとするものである。 SKUはモデルパラメータの有害な知識を選択的に分離し除去し、モデルの性能が正常なプロンプトに対して堅牢であることを保証する。各種LLMアーキテクチャを用いて実施した実験により,有害情報除去と有効性維持のバランス点をSKUが同定できることが確認された。

関連論文リスト

Mr. Snuffleupagus at SemEval-2025 Task 4: Unlearning Factual Knowledge from LLMs Using Adaptive RMU [0.0]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示した。トレーニングデータを記憶する傾向は、プライバシ、著作権コンプライアンス、セキュリティに関する懸念を提起する。本研究では,LLMからの機密情報を学習するために適応表現ミスディレクテーション・アンラーニング(RMU)技術を適用する。
論文参考訳（メタデータ） (2025-06-19T19:06:44Z)
Step-by-Step Reasoning Attack: Revealing 'Erased' Knowledge in Large Language Models [9.719371187651591]
未学習のテクニックは、その知識を表面下で抑制し、残すことで、正しいプロンプトで取り出すことができる。我々は、段階的に推論に基づくブラックボックス攻撃であるSleekを導入し、非学習障害を体系的に暴露する。生成した敵のプロンプトのうち62.5%がWHPの未発表のラマから忘れられたハリー・ポッターの事実を回収し、50%は不当な知識の抑制を暴露した。
論文参考訳（メタデータ） (2025-06-14T04:22:17Z)
UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。 UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-21T15:53:28Z)
Disentangling Memory and Reasoning Ability in Large Language Models [97.26827060106581]
本稿では、複雑な推論プロセスを2つの異なる明確なアクションに分解する新しい推論パラダイムを提案する。実験の結果, この分解によりモデル性能が向上し, 推論プロセスの解釈可能性も向上することがわかった。
論文参考訳（メタデータ） (2024-11-20T17:55:38Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
When Machine Unlearning Meets Retrieval-Augmented Generation (RAG): Keep Secret or Forget Knowledge? [15.318301783084681]
大規模言語モデル(LLM)は、トレーニング中に機密情報や有害なコンテンツを不注意に学習し、保持することができる。本稿では,RAG(Retrieval-Augmented Generation)技術に基づく軽量なアンラーニングフレームワークを提案する。われわれはChatGPT, Gemini, Llama-2-7b-chat-hf, PaLM 2 など,オープンソースおよびクローズドソースモデルの広範な実験を通じてフレームワークを評価する。
論文参考訳（メタデータ） (2024-10-20T03:51:01Z)
UNLEARN Efficient Removal of Knowledge in Large Language Models [1.9797215742507548]
本稿では,UNLEARNと呼ばれる新しい手法を提案する。このアプローチは、LLMの他の知識に悪影響を及ぼすことなく、知識の除去を識別し、特にターゲットとするサブスペース法に基づいている。その結果、対象とする知識の96%は、元のモデルの2.5%の範囲内で、他の知識のパフォーマンスを維持しながら、忘れられることを示した。
論文参考訳（メタデータ） (2024-08-08T00:53:31Z)
SNAP: Unlearning Selective Knowledge in Large Language Models with Negative Instructions [37.172662930947446]
命令追従型大規模言語モデル(LLM)は、個人または著作権のある情報を故意に開示する。 SNAPは,情報を選択的に学習するための革新的なフレームワークである。我々は,NLPベンチマークにおけるフレームワークの評価を行い,提案手法が元のLLM能力を維持していることを示す。
論文参考訳（メタデータ） (2024-06-18T06:54:05Z)
Split, Unlearn, Merge: Leveraging Data Attributes for More Effective Unlearning in LLMs [18.629717934007513]
SPUNGE(SPlit, UNlearn, MerGE)は,任意のアンラーニング手法を用いて有効性を増幅するフレームワークである。我々はSPUNGEが最近の2つの非学習手法の性能を大幅に向上させることを実証的に実証した。
論文参考訳（メタデータ） (2024-06-17T17:35:52Z)
Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。 1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文参考訳（メタデータ） (2024-04-25T13:10:48Z)
A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文参考訳（メタデータ） (2024-01-02T16:54:58Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Knowledge Unlearning for LLMs: Tasks, Methods, and Challenges [11.228131492745842]
大規模言語モデル(LLM)は、自然言語処理における新しい研究パラダイムを刺激している。知識に基づく質問応答と推論の優れた能力にもかかわらず、欠陥や有害な知識を保持する可能性は、悪意のあるアプリケーションにリスクをもたらす。機械学習の類似研究から派生した知識アンラーニングは、この問題に対処するための有望な道を示す。
論文参考訳（メタデータ） (2023-11-27T12:37:51Z)
Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文参考訳（メタデータ） (2023-10-16T14:59:10Z)
Knowledge Sanitization of Large Language Models [4.722882736419499]
大規模な言語モデル(LLM)は、大量のWebデータをトレーニングすることで、機密情報や機密情報を明らかにする可能性がある。我々の手法はローランド適応法(LoRA)を用いてこれらのモデルを効率的に微調整する。クローズドブック質問応答タスクによる実験結果から,本手法は知識リークを最小限に抑えるだけでなく,LLMの全体的な性能も維持できることがわかった。
論文参考訳（メタデータ） (2023-09-21T07:49:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。