論文の概要: Large Language Model Unlearning
- arxiv url: http://arxiv.org/abs/2310.10683v2
- Date: Fri, 16 Feb 2024 19:47:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 05:21:50.291044
- Title: Large Language Model Unlearning
- Title(参考訳): 大規模言語モデル学習
- Authors: Yuanshun Yao, Xiaojun Xu, Yang Liu
- Abstract要約: 大規模言語モデル(LLM)を用いた非学習、すなわち望ましくない誤動作を忘れる方法の研究を行う。
我々は、LLMと人間の好みを一致させるシナリオを少なくとも3つ示す。
- 参考スコア(独自算出の注目度): 18.668035810039296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how to perform unlearning, i.e. forgetting undesirable misbehaviors,
on large language models (LLMs). We show at least three scenarios of aligning
LLMs with human preferences can benefit from unlearning: (1) removing harmful
responses, (2) erasing copyright-protected content as requested, and (3)
reducing hallucinations. Unlearning, as an alignment technique, has three
advantages. (1) It only requires negative (e.g. harmful) examples, which are
much easier and cheaper to collect (e.g. via red teaming or user reporting)
than positive (e.g. helpful and often human-written) examples required in RLHF
(RL from human feedback). (2) It is computationally efficient. (3) It is
especially effective when we know which training samples cause the misbehavior.
To the best of our knowledge, our work is among the first to explore LLM
unlearning. We are also among the first to formulate the settings, goals, and
evaluations in LLM unlearning. We show that if practitioners only have limited
resources, and therefore the priority is to stop generating undesirable outputs
rather than to try to generate desirable outputs, unlearning is particularly
appealing. Despite only having negative samples, our ablation study shows that
unlearning can still achieve better alignment performance than RLHF with just
2% of its computational time.
- Abstract(参考訳): 我々は,大言語モデル(llm)上で,望ましくない誤動作を忘れる,未学習の実行方法を研究する。
1) 有害な応答の除去, (2) 著作権保護コンテンツの削除,(3) 幻覚の低減,の3つのシナリオを提示する。
アンラーニングはアライメントテクニックとして3つの利点がある。
1) ネガティブな例(有害な例など)しか必要とせず、RLHF(人間からのフィードバックからRL)に必要な例(例えば、有益でしばしば人手書きの例)よりも、収集がずっと簡単で安価である(例えば、レッドチームやユーザー報告による)。
(2)計算効率が高い。
3)どのトレーニングサンプルが誤動作を引き起こすかを知る場合,特に有効である。
私たちの知識を最大限に活用するために、私たちの研究はLLMアンラーニングを初めて探求するものです。
LLMアンラーニングにおける設定、目標、評価を定式化した最初の一人です。
実践者が限られたリソースしか持たなければ、望ましいアウトプットを生成しようとするよりも、望ましくないアウトプットを生成するのをやめることが最優先であることを示す。
負のサンプルしか持たないにも関わらず,非学習によるアライメント性能は,計算時間のわずか2%でrlhfよりも向上した。
関連論文リスト
- Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Customizing Language Model Responses with Contrastive In-Context Learning [7.342346948935483]
我々は、コントラスト的な例を使って、私たちの意図をよりよく記述するアプローチを提案する。
これには、本当の意図を示す肯定的な例と、LLMが避けたい特性を示す否定的な例が含まれます。
答を生成する前に、モデルにサンプルを分析して、避けるべきことを教える。
この推論ステップは、モデルにユーザのニーズを適切に表現し、より良い回答を生成するためのガイドを提供します。
論文 参考訳(メタデータ) (2024-01-30T19:13:12Z) - Human-Instruction-Free LLM Self-Alignment with Limited Samples [64.69906311787055]
本研究では,人間の関与なしに,大規模言語モデル(LLM)を反復的に自己調整するアルゴリズムを提案する。
既存の研究と異なり、我々のアルゴリズムは人造指示にも報酬にも依存せず、人間の関与を著しく減らしている。
提案手法は,LLMの自己一般化能力を解き明かし,ほぼゼロに近い人的監督と整合性を持たせることができることを示す。
論文 参考訳(メタデータ) (2024-01-06T14:00:12Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - In-Context Unlearning: Language Models as Few Shot Unlearners [31.426892450603873]
''In-Context Unlearning''は、モデルパラメータを更新することなく、コンテキスト内のインプットを提供する。
これらのコンテキストは、最先端の未学習手法と競合するパフォーマンスレベルを維持しながら、トレーニングセットから特定の情報を効果的に除去することを示します。
論文 参考訳(メタデータ) (2023-10-11T15:19:31Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。