Fugu-MT 論文翻訳(概要): Large Language Model Unlearning

論文の概要: Large Language Model Unlearning

arxiv url: http://arxiv.org/abs/2310.10683v2
Date: Fri, 16 Feb 2024 19:47:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 05:21:50.291044
Title: Large Language Model Unlearning
Title（参考訳）: 大規模言語モデル学習
Authors: Yuanshun Yao, Xiaojun Xu, Yang Liu
Abstract要約: 大規模言語モデル(LLM)を用いた非学習、すなわち望ましくない誤動作を忘れる方法の研究を行う。我々は、LLMと人間の好みを一致させるシナリオを少なくとも3つ示す。
参考スコア（独自算出の注目度）: 18.668035810039296
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study how to perform unlearning, i.e. forgetting undesirable misbehaviors, on large language models (LLMs). We show at least three scenarios of aligning LLMs with human preferences can benefit from unlearning: (1) removing harmful responses, (2) erasing copyright-protected content as requested, and (3) reducing hallucinations. Unlearning, as an alignment technique, has three advantages. (1) It only requires negative (e.g. harmful) examples, which are much easier and cheaper to collect (e.g. via red teaming or user reporting) than positive (e.g. helpful and often human-written) examples required in RLHF (RL from human feedback). (2) It is computationally efficient. (3) It is especially effective when we know which training samples cause the misbehavior. To the best of our knowledge, our work is among the first to explore LLM unlearning. We are also among the first to formulate the settings, goals, and evaluations in LLM unlearning. We show that if practitioners only have limited resources, and therefore the priority is to stop generating undesirable outputs rather than to try to generate desirable outputs, unlearning is particularly appealing. Despite only having negative samples, our ablation study shows that unlearning can still achieve better alignment performance than RLHF with just 2% of its computational time.
Abstract（参考訳）: 我々は,大言語モデル(llm)上で,望ましくない誤動作を忘れる,未学習の実行方法を研究する。 1) 有害な応答の除去, (2) 著作権保護コンテンツの削除,(3) 幻覚の低減,の3つのシナリオを提示する。アンラーニングはアライメントテクニックとして3つの利点がある。 1) ネガティブな例(有害な例など)しか必要とせず、RLHF(人間からのフィードバックからRL)に必要な例(例えば、有益でしばしば人手書きの例)よりも、収集がずっと簡単で安価である(例えば、レッドチームやユーザー報告による)。 (2)計算効率が高い。 3)どのトレーニングサンプルが誤動作を引き起こすかを知る場合,特に有効である。私たちの知識を最大限に活用するために、私たちの研究はLLMアンラーニングを初めて探求するものです。 LLMアンラーニングにおける設定、目標、評価を定式化した最初の一人です。実践者が限られたリソースしか持たなければ、望ましいアウトプットを生成しようとするよりも、望ましくないアウトプットを生成するのをやめることが最優先であることを示す。負のサンプルしか持たないにも関わらず,非学習によるアライメント性能は,計算時間のわずか2%でrlhfよりも向上した。

関連論文リスト

e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs [49.01449646799905]
既存の推論モデルでは外挿がうまく行われていないことが示される。レシピ e3 は AIME'25 と HMMT'25 のスコアに基づいて最もよく知られた 1.7B モデルを生成する。 e3-1.7Bモデルは、高いpass@1スコアを得るだけでなく、ベースモデルよりもpass@kを改善する。
論文参考訳（メタデータ） (2025-06-10T17:52:42Z)
Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [52.32193550674408]
強化学習(RL)による言語モデルの推論能力の向上を目指す。我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。 E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文参考訳（メタデータ） (2025-06-07T02:41:54Z)
Zero-Shot LLMs in Human-in-the-Loop RL: Replacing Human Feedback for Reward Shaping [2.427844597259453]
強化学習(Reinforcement Learning, RL)は、しばしば報酬のミスアライメントに苦しむ。 HITL(Human-in-the-loop)メソッドはこの問題を緩和するが、バイアスも導入する。これらの課題に対処するための2つの重要な貢献を提案する。
論文参考訳（メタデータ） (2025-03-26T03:17:12Z)
LUME: LLM Unlearning with Multitask Evaluations [106.83812472773522]
Unlearningは、大規模な言語モデル(LLM)から著作権のある、機密性の高い、あるいはプライベートなコンテンツを、完全に再トレーニングすることなく削除することを目的としている。本研究では,(1)未学習の創造的短編小説,(2)機密情報付き未学習の合成バイオグラフィー,(3)公開バイオグラフィーのコレクションの3つのタスクを特徴とするマルチタスク・アンラーニング・ベンチマーク(LUME)を開発した。
論文参考訳（メタデータ） (2025-02-20T23:30:45Z)
Soft Token Attacks Cannot Reliably Audit Unlearning in Large Language Models [5.807314706494602]
ソフトトークン攻撃(STA)は,大規模言語モデル(LLM)から未学習情報を抽出できることを示す。我々の研究は、より良い評価基準と、未学習の有効性を評価するためのより適切な監査ツールの必要性を強調している。
論文参考訳（メタデータ） (2025-02-20T13:22:33Z)
Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。 LMUとRMUは、LLMアンラーニングの2つの方法として提案され、アンラーニングベンチマークで印象的な結果を得た。
論文参考訳（メタデータ） (2024-11-18T22:31:17Z)
A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。 LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文参考訳（メタデータ） (2024-10-10T16:56:05Z)
MEOW: MEMOry Supervised LLM Unlearning Via Inverted Facts [29.593170782882563]
大きな言語モデル(LLM)は機密情報を記憶し、潜在的な誤用に対する懸念を引き起こす。以前のプラクティスでは、実用性、効率性、堅牢性という3つの大きな課題に直面しています。勾配降下に基づくアンラーニング手法であるMEOWを提案する。
論文参考訳（メタデータ） (2024-09-18T09:55:48Z)
AI Meets the Classroom: When Does ChatGPT Harm Learning? [0.0]
我々は,生成型AI,特に大規模言語モデル(LLM)がプログラミングクラスにおける学習に与える影響について検討する。 LLMの使用が学習結果に肯定的,否定的な影響を及ぼす可能性が3つの研究で示された。
論文参考訳（メタデータ） (2024-08-29T17:07:46Z)
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文参考訳（メタデータ） (2024-03-05T19:32:01Z)
Human-Instruction-Free LLM Self-Alignment with Limited Samples [64.69906311787055]
本研究では,人間の関与なしに,大規模言語モデル(LLM)を反復的に自己調整するアルゴリズムを提案する。既存の研究と異なり、我々のアルゴリズムは人造指示にも報酬にも依存せず、人間の関与を著しく減らしている。提案手法は,LLMの自己一般化能力を解き明かし,ほぼゼロに近い人的監督と整合性を持たせることができることを示す。
論文参考訳（メタデータ） (2024-01-06T14:00:12Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)
Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。 ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文参考訳（メタデータ） (2023-03-28T17:04:15Z)
RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文参考訳（メタデータ） (2021-12-20T18:55:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。