論文の概要: Language Models are Homer Simpson! Safety Re-Alignment of Fine-tuned
Language Models through Task Arithmetic
- arxiv url: http://arxiv.org/abs/2402.11746v1
- Date: Mon, 19 Feb 2024 00:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 19:08:05.803644
- Title: Language Models are Homer Simpson! Safety Re-Alignment of Fine-tuned
Language Models through Task Arithmetic
- Title(参考訳): 言語モデルはホーマー・シンプソン!
タスク演算による微調整言語モデルの安全性再評価
- Authors: Rishabh Bhardwaj, Do Duc Anh, Soujanya Poria
- Abstract要約: RESTA は Task Arithmetic による安全の維持の略です。
パラメータ効率およびフル微調整におけるRESTAの有効性を示す。
また、既存の3つの安全性評価ベンチマークと多言語ベンチマークデータセットにおいて、RESTAの一般化可能性を示す。
- 参考スコア(独自算出の注目度): 27.277409583885508
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Aligned language models face a significant limitation as their fine-tuning
often results in compromised safety. To tackle this, we propose a simple method
RESTA that performs LLM safety realignment. RESTA stands for REstoring Safety
through Task Arithmetic. At its core, it involves a simple arithmetic addition
of a safety vector to the weights of the compromised model. We demonstrate the
effectiveness of RESTA in both parameter-efficient and full fine-tuning,
covering a wide range of downstream tasks, including instruction following in
Chinese, English, and Hindi, as well as problem-solving capabilities in Code
and Math. We also showcase the generalizability of RESTA on three existing
safety evaluation benchmarks and a multilingual benchmark dataset proposed as a
part of this work, consisting of 550 harmful questions covering 11 categories,
each with 5 sub-categories of harm. Overall, RESTA decreases the harmfulness of
the compromised model from 18.6% to 5.1% and from 9.2% to 1.5% in
parameter-efficient and full fine-tuning, respectively, while maintaining most
of the model's performance on the task. We release the source codes at:
https://github.com/declare-lab/resta.
- Abstract(参考訳): 言語モデルの微調整が安全を損なうことがしばしばあるため、言語モデルは重大な制限に直面します。
そこで本研究では,LLMの安全性向上を実現するシンプルな方法RESTAを提案する。
RESTA は Task Arithmetic による安全の維持を意味する。
中心となるのは、妥協されたモデルの重みに安全ベクトルを単純な算術的に付加することである。
我々は、パラメータ効率とフル微調整におけるRESTAの有効性を実証し、中国語、英語、ヒンディー語での指示や、コードと数学における問題解決機能を含む幅広い下流タスクをカバーした。
また,既存の3つの安全評価ベンチマークと,11のカテゴリをカバーする550の有害質問からなる多言語ベンチマークデータセットについて,restaの汎用性を示す。
全体として、restaは漏洩したモデルの有害性を18.6%から5.1%に、パラメーター効率と完全な微調整において9.2%から1.5%に低下させる。
ソースコードはhttps://github.com/declare-lab/resta。
関連論文リスト
- Multitask Mayhem: Unveiling and Mitigating Safety Gaps in LLMs Fine-tuning [1.3307486544794784]
レッドチーム/セーフティアライメントの取り組みは、良質な(有害でない)データの微調整モデルが安全性を損なう可能性があることを示している。
本稿では,要約,コード生成,翻訳,分類などの下流タスクの微調整によるタスクの安全性の低下について検討する。
我々の研究は、より安全でロバストなモデルを保証するために、一般化されたアライメント対策の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-18T08:04:24Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations [19.132597762214722]
現在のアライメント手法は、動的なユーザ意図と複雑な目的に苦しむ。
異なるシナリオにおける安全性を向上させるトレーニングフリーフレームワークであるSafety Arithmeticを提案する。
実験の結果,安全算術は安全対策を大幅に改善し,過度な安全性を低減し,モデルの有用性を維持できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T17:48:13Z) - Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
カスタマイズされたデータセット、ドメイン固有のタスク、その他のプライベートニーズに対するパフォーマンスを高めるためには、微調整された大きな言語モデル(LLM)が必要である。
Safe LoRAは、選択したレイヤからのLoRA重みのプロジェクションを安全に整合したサブスペースに導入することで、オリジナルのLoRA実装のワンラインパッチである。
我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文 参考訳(メタデータ) (2024-05-27T05:04:05Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in
Large Language Models [15.896567445646784]
このような重要な安全性リスクを迅速かつ体系的に識別するための新しいテストスイートとしてSimpleSafetyTests(SST)を紹介します。
テストスイートは、5つのハーネス領域にわたる100のテストプロンプトで構成されており、LLMは、ほとんどのアプリケーションにおいて、コンプライアンスを拒否すべきである。
いくつかのモデルは単一の安全でない応答を与えないが、ほとんどのモデルは20%以上のプロンプトに対して安全でない応答を与え、極端に50%以上の安全でない応答を与える。
論文 参考訳(メタデータ) (2023-11-14T18:33:43Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z) - SafeDreamer: Safe Reinforcement Learning with World Models [7.773096110271637]
本稿では,ラグランジュ的手法を世界モデル計画プロセスに取り入れた新しいアルゴリズムであるSafeDreamerを紹介する。
本手法は,低次元および視覚のみの入力にまたがる様々なタスクにおいて,ほぼゼロコストの性能を実現する。
論文 参考訳(メタデータ) (2023-07-14T06:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。