論文の概要: Guardrail Baselines for Unlearning in LLMs
- arxiv url: http://arxiv.org/abs/2403.03329v2
- Date: Thu, 6 Jun 2024 19:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 19:37:58.036063
- Title: Guardrail Baselines for Unlearning in LLMs
- Title(参考訳): LLMにおけるアンラーニングのためのガードレールベースライン
- Authors: Pratiksha Thaker, Yash Maurya, Shengyuan Hu, Virginia Smith, Zhiwei Steven Wu,
- Abstract要約: ファインタニングは、大きな言語モデルから'未学習'の概念への有望なアプローチである。
ガードレールをベースとしたプロンプトやフィルタリングなどの手法が,ファインタニングに匹敵する未学習結果が得られることを示す。
- 参考スコア(独自算出の注目度): 33.86316928349476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has demonstrated that finetuning is a promising approach to 'unlearn' concepts from large language models. However, finetuning can be expensive, as it requires both generating a set of examples and running iterations of finetuning to update the model. In this work, we show that simple guardrail-based approaches such as prompting and filtering can achieve unlearning results comparable to finetuning. We recommend that researchers investigate these lightweight baselines when evaluating the performance of more computationally intensive finetuning methods. While we do not claim that methods such as prompting or filtering are universal solutions to the problem of unlearning, our work suggests the need for evaluation metrics that can better separate the power of guardrails vs. finetuning, and highlights scenarios where guardrails expose possible unintended behavior in existing metrics and benchmarks.
- Abstract(参考訳): 最近の研究は、ファインタニングが大きな言語モデルから「未学習」の概念への有望なアプローチであることを実証している。
しかし、ファインチューニングは、一連の例を生成することと、モデルを更新するためにファインチューニングの繰り返しを実行することの両方を必要とするため、コストがかかる可能性がある。
本研究では, ファインタニングに匹敵する学習結果が得られることを示す。
我々は、より計算集約的な微調整法の性能を評価する際に、これらの軽量なベースラインを調べることを推奨する。
プロンプトやフィルタリングといった手法が、未学習の問題に対する普遍的な解決策であるとは主張していませんが、我々の研究は、ガードレールと微調整のパワーをより分離できる評価指標の必要性を示唆し、既存のメトリクスやベンチマークにおいて、ガードレールが意図せぬ振る舞いを露呈するシナリオを強調しています。
関連論文リスト
- Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - A Semantic-based Layer Freezing Approach to Efficient Fine-Tuning of Language Models [32.178931149612644]
下流のデータやタスクにモデルを適応させるには、微調整言語モデル(LM)が不可欠である。
パラメータ効率の微調整(PEFT)のような既存の作業は、しばしば微細化のためのthithowに焦点を当てるが、微細化のためのtextitwhereの問題を無視している。
論文 参考訳(メタデータ) (2024-06-17T17:13:08Z) - Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping [53.454408491386886]
自己アライメントのブートストラップは、シングルラウンドアプローチをはるかに上回る。
モデルが継続的に強化した複数ショット機能を活用してゼロまたはワンショットのパフォーマンスを向上するステップ・オン・フィート・チューニング(SOFT)を提案する。
簡単な学習法に基づいて、自己アライメントの性能をさらに向上させるSOFT+を提案する。
論文 参考訳(メタデータ) (2024-02-12T12:30:42Z) - Steering Large Language Models for Machine Translation with Finetuning
and In-Context Learning [19.290966101497844]
大規模言語モデル(LLMs)は機械翻訳(MT)のための有望な道である
それらの効果は、少数ショットの例の選択に大きく依存しており、しばしば過剰発生のために余分な後処理を必要とする。
また,LoRAを用いたアダプタベースファインタニングは従来のファインタニング性能と一致し,トレーニングパラメータの数を50。
論文 参考訳(メタデータ) (2023-10-20T12:29:51Z) - Context-Aware Meta-Learning [52.09326317432577]
本研究では,大規模言語モデルのエミュレートを行うメタ学習アルゴリズムを提案する。
我々のアプローチは、11のメタラーニングベンチマークのうち8つで最先端のアルゴリズムであるP>M>Fを上回り、一致します。
論文 参考訳(メタデータ) (2023-10-17T03:35:27Z) - Selecting Informative Contexts Improves Language Model Finetuning [66.26521454263343]
本稿では,情報ゲインフィルタと呼ぶ汎用的な微調整手法を提案する。
微調整中、二次学習者は情報的例を選択し、非情報的例をスキップする。
提案手法は,データセット,微調整タスク,言語モデルアーキテクチャ間で一貫した改善がなされていることを示す。
論文 参考訳(メタデータ) (2020-05-01T02:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。