Fugu-MT 論文翻訳(概要): Machine Unlearning in Large Language Models

論文の概要: Machine Unlearning in Large Language Models

arxiv url: http://arxiv.org/abs/2404.16841v1
Date: Sat, 3 Feb 2024 05:14:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 11:49:01.924029
Title: Machine Unlearning in Large Language Models
Title（参考訳）: 大規模言語モデルにおける機械学習
Authors: Kongyang Chen, Zixin Wang, Bing Mi, Waixi Liu, Shaowei Wang, Xiaojun Ren, Jiaxing Shen,
Abstract要約: 本稿では,大規模言語モデルに新しい機械学習フレームワークを導入する。我々の目標は、LSMが有害、幻覚、あるいはプライバシーを侵害する応答を生じさせないようにすることです。実験結果から,本手法はモデル性能を実質的に損なうことなく,学習対象を効果的に満たすことが示唆された。
参考スコア（独自算出の注目度）: 8.14992136443131
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, large language models (LLMs) have emerged as a notable field, attracting significant attention for its ability to automatically generate intelligent contents for various application domains. However, LLMs still suffer from significant security and privacy issues. For example, LLMs might expose user privacy from hacking attacks or targeted prompts. To address this problem, this paper introduces a novel machine unlearning framework into LLMs. Our objectives are to make LLMs not produce harmful, hallucinatory, or privacy-compromising responses, while retaining their standard output capabilities. To accomplish this, we use an evaluative model to pinpoint dialogues needing unlearning. We also establish a distance loss to function as the model's negative loss, diverting it from previous undesirable outputs. Furthermore, we determine the expected output's cluster mean to formulate a positive loss, directing the model's outputs toward preferable outcomes without compromising its reasoning abilities and performance. Experimental results show that our approach effectively meets unlearning objectives without substantially compromising model performance.
Abstract（参考訳）: 近年,大規模言語モデル (LLM) が注目され,様々なアプリケーション領域のインテリジェントなコンテンツを自動的に生成する能力に注目が集まっている。しかし、LSMは依然として重大なセキュリティとプライバシーの問題に悩まされている。例えば、LLMはハッキング攻撃やターゲットのプロンプトからユーザーのプライバシーを公開する可能性がある。この問題に対処するために,LLMに新しい機械学習フレームワークを導入する。我々の目標は、LLMが標準出力能力を保ちつつ、有害、幻覚、プライバシーを侵害する応答を生じさせないようにすることである。これを実現するために、未学習の対話をピンポイントする評価モデルを用いる。また、モデルの負の損失として機能するために距離損失を確立し、それを以前の望ましくない出力から逸脱させる。さらに、予測出力のクラスタは、正の損失を定式化し、その推論能力と性能を損なうことなく、モデル出力を好ましい結果に導く。実験結果から,本手法はモデル性能を実質的に損なうことなく,学習対象を効果的に満たすことが示唆された。

関連論文リスト

Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs [44.8238758047607]
LLMの現在の未学習方法は、学習目的に組み込むことで、削除しようとしているプライベート情報に基づいて最適化されている。センシティブなデータへの露出を抑えるリスクだけでなく、その使用を最小化するという原則にも反する、と我々は主張する。本研究では,未学習目標を学習対象に含まないPMC(Partial Model Collapse)を提案する。
論文参考訳（メタデータ） (2025-07-06T03:08:49Z)
Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文参考訳（メタデータ） (2025-06-20T16:27:59Z)
Rethinking Post-Unlearning Behavior of Large Vision-Language Models [17.951441278605966]
我々はLVLM(Large Vision-Language Models)のための新しいアンラーニングタスクを導入する。このタスクでは、プライバシが保護されるが、情報的かつ視覚的に根拠づけられた応答を提供するモデルが必要である。また,学習後の振る舞いを望ましい出力分布に導出する新しいアンラーニング手法を提案する。
論文参考訳（メタデータ） (2025-06-03T07:28:22Z)
Multi-Objective Large Language Model Unlearning [3.372396620898397]
グラディエント・アセント(GA)は、対象データ上のモデルの予測確率を減少させるプロアクティブな方法である。本稿では,多目的大規模言語モデル学習(MOLLM)アルゴリズムを提案する。実験の結果,MLLM が SOTA GA をベースとした LLM アンラーニング法よりも非ラーニング効果とモデルユーティリティ保存の点で優れていたことが確認された。
論文参考訳（メタデータ） (2024-12-29T09:35:56Z)
A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。 LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文参考訳（メタデータ） (2024-10-10T16:56:05Z)
Detecting AI Flaws: Target-Driven Attacks on Internal Faults in Language Models [27.397408870544453]
大規模言語モデル(LLM)は、人工知能の急速に発展する分野において焦点となっている。重要な懸念は、これらのモデルの事前学習コーパス内に有毒な物質が存在することであり、不適切な出力が発生する可能性がある。本稿では,プロンプトを最適化する代わりに,ターゲット応答を直接抽出することに焦点を当てた,ターゲット駆動型攻撃パラダイムを提案する。
論文参考訳（メタデータ） (2024-08-27T08:12:08Z)
MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文参考訳（メタデータ） (2024-08-20T10:44:29Z)
SNAP: Unlearning Selective Knowledge in Large Language Models with Negative Instructions [37.172662930947446]
命令追従型大規模言語モデル(LLM)は、個人または著作権のある情報を故意に開示する。 SNAPは,情報を選択的に学習するための革新的なフレームワークである。我々は,NLPベンチマークにおけるフレームワークの評価を行い,提案手法が元のLLM能力を維持していることを示す。
論文参考訳（メタデータ） (2024-06-18T06:54:05Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。 LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文参考訳（メタデータ） (2024-03-23T09:26:15Z)
Calibrating Large Language Models Using Their Generations Only [44.26441565763495]
APRICOT は、信頼目標を設定し、テキスト入力と出力のみに基づいて LLM の信頼度を予測する追加モデルを訓練する手法である。概念的には単純で、出力以上のターゲットモデルへのアクセスを必要とせず、言語生成に干渉せず、多くの潜在的な使用法を持っている。閉書質問応答における白箱と黒箱のLCMの校正誤差を考慮し,誤ったLCMの解答を検出する方法として,本手法の競合性を示す。
論文参考訳（メタデータ） (2024-03-09T17:46:24Z)
Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文参考訳（メタデータ） (2024-02-13T20:51:58Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。 4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文参考訳（メタデータ） (2023-05-22T22:07:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。