論文の概要: Large Language Model Unlearning
- arxiv url: http://arxiv.org/abs/2310.10683v1
- Date: Sat, 14 Oct 2023 00:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 20:00:46.541488
- Title: Large Language Model Unlearning
- Title(参考訳): 大規模言語モデル学習
- Authors: Yuanshun Yao, Xiaojun Xu, Yang Liu
- Abstract要約: 我々は、大規模言語モデル(LLM)において、非学習、すなわち望ましくない(ミス)振る舞いを忘れる方法を研究する。
我々は、LLMと人間の好みを一致させるシナリオを少なくとも3つ示す。
- 参考スコア(独自算出の注目度): 18.668035810039296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how to perform unlearning, i.e. forgetting undesirable
(mis)behaviors, on large language models (LLMs). We show at least three
scenarios of aligning LLMs with human preferences can benefit from unlearning:
(1) removing harmful responses, (2) erasing copyright-protected content as
requested, and (3) eliminating hallucinations. Unlearning, as an alignment
technique, has three advantages. (1) It only requires negative (e.g. harmful)
examples, which are much easier and cheaper to collect (e.g. via red teaming or
user reporting) than positive (e.g. helpful and often human-written) examples
required in RLHF (RL from human feedback). (2) It is computationally efficient.
(3) It is especially effective when we know which training samples cause the
misbehavior. To the best of our knowledge, our work is among the first to
explore LLM unlearning. We are also among the first to formulate the settings,
goals, and evaluations in LLM unlearning. We show that if practitioners only
have limited resources, and therefore the priority is to stop generating
undesirable outputs rather than to try to generate desirable outputs,
unlearning is particularly appealing. Despite only having negative samples, our
ablation study shows that unlearning can still achieve better alignment
performance than RLHF with just 2% of its computational time.
- Abstract(参考訳): 我々は,大言語モデル(llm)上で,望ましくない(誤用)動作を忘れる,未学習の実行方法を研究する。
1) 有害な応答の除去, (2) 著作権保護コンテンツの削除,(3) 幻覚の除去の3つのシナリオを示す。
アンラーニングはアライメントテクニックとして3つの利点がある。
1) ネガティブな例(有害な例など)しか必要とせず、RLHF(人間からのフィードバックからRL)に必要な例(例えば、有益でしばしば人手書きの例)よりも、収集がずっと簡単で安価である(例えば、レッドチームやユーザー報告による)。
(2)計算効率が高い。
3)どのトレーニングサンプルが誤動作を引き起こすかを知る場合,特に有効である。
私たちの知識を最大限に活用するために、私たちの研究はLLMアンラーニングを初めて探求するものです。
LLMアンラーニングにおける設定、目標、評価を定式化した最初の一人です。
実践者が限られたリソースしか持たなければ、望ましいアウトプットを生成しようとするよりも、望ましくないアウトプットを生成するのをやめることが最優先であることを示す。
負のサンプルしか持たないにも関わらず,非学習によるアライメント性能は,計算時間のわずか2%でrlhfよりも向上した。
関連論文リスト
- Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。
LMUとRMUは、LLMアンラーニングの2つの方法として提案され、アンラーニングベンチマークで印象的な結果を得た。
論文 参考訳(メタデータ) (2024-11-18T22:31:17Z) - A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - MEOW: MEMOry Supervised LLM Unlearning Via Inverted Facts [29.593170782882563]
大きな言語モデル(LLM)は機密情報を記憶し、潜在的な誤用に対する懸念を引き起こす。
以前のプラクティスでは、実用性、効率性、堅牢性という3つの大きな課題に直面しています。
勾配降下に基づくアンラーニング手法であるMEOWを提案する。
論文 参考訳(メタデータ) (2024-09-18T09:55:48Z) - AI Meets the Classroom: When Does ChatGPT Harm Learning? [0.0]
我々は,生成型AI,特に大規模言語モデル(LLM)がプログラミングクラスにおける学習に与える影響について検討する。
LLMの使用が学習結果に肯定的,否定的な影響を及ぼす可能性が3つの研究で示された。
論文 参考訳(メタデータ) (2024-08-29T17:07:46Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Human-Instruction-Free LLM Self-Alignment with Limited Samples [64.69906311787055]
本研究では,人間の関与なしに,大規模言語モデル(LLM)を反復的に自己調整するアルゴリズムを提案する。
既存の研究と異なり、我々のアルゴリズムは人造指示にも報酬にも依存せず、人間の関与を著しく減らしている。
提案手法は,LLMの自己一般化能力を解き明かし,ほぼゼロに近い人的監督と整合性を持たせることができることを示す。
論文 参考訳(メタデータ) (2024-01-06T14:00:12Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。