論文の概要: BadLlama: cheaply removing safety fine-tuning from Llama 2-Chat 13B
- arxiv url: http://arxiv.org/abs/2311.00117v1
- Date: Tue, 31 Oct 2023 19:45:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 16:00:36.433542
- Title: BadLlama: cheaply removing safety fine-tuning from Llama 2-Chat 13B
- Title(参考訳): badllama: llama 2-chat 13bから安全性の微調整を安価に取り除く
- Authors: Pranav Gade and Simon Lermen and Charlie Rogers-Smith and Jeffrey
Ladish
- Abstract要約: Llama 2-Chat 13Bの安全性を200ドル以下で解き放つことが可能である。
AI開発者は、モデルウェイトを公開リリースするかどうかを考えるとき、微調整による脅威に対処することが不可欠である。
- 参考スコア(独自算出の注目度): 0.10414713311972776
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Llama 2-Chat is a collection of large language models that Meta developed and
released to the public. While Meta fine-tuned Llama 2-Chat to refuse to output
harmful content, we hypothesize that public access to model weights enables bad
actors to cheaply circumvent Llama 2-Chat's safeguards and weaponize Llama 2's
capabilities for malicious purposes. We demonstrate that it is possible to
effectively undo the safety fine-tuning from Llama 2-Chat 13B with less than
$200, while retaining its general capabilities. Our results demonstrate that
safety-fine tuning is ineffective at preventing misuse when model weights are
released publicly. Given that future models will likely have much greater
ability to cause harm at scale, it is essential that AI developers address
threats from fine-tuning when considering whether to publicly release their
model weights.
- Abstract(参考訳): Llama 2-ChatはMetaが開発・リリースした大規模な言語モデルのコレクションである。
meta fine-tuned llama 2-chatは有害なコンテンツの出力を拒否するが、モデルウェイトへのパブリックアクセスにより、悪役がllama 2-chatのセーフガードを安価に回避し、悪質な目的のためにllama 2の能力を武器化できると仮定する。
Llama 2-Chat 13Bから200ドル未満で安全性の微調整を効果的に解き放つことが可能であることを実証した。
本研究は, モデル重みを公にリリースした場合の誤用防止に安全チューニングが有効でないことを示す。
将来のモデルが大規模に危害を引き起こす能力がより大きくなる可能性を考えると、ai開発者がモデル重みを公にリリースするかどうかを考える際に、微調整による脅威に対処することが不可欠である。
関連論文リスト
- ChatBug: A Common Vulnerability of Aligned LLMs Induced by Chat Templates [12.87887398974395]
チャットテンプレートによって導入された共通の脆弱性であるChatBugを特定します。
悪意のあるユーザーは、チャットテンプレートの知識を活用して、大きな言語モデルの安全アライメントを回避できる。
ChatBugの脆弱性を悪用する2つの攻撃を開発した。
論文 参考訳(メタデータ) (2024-06-17T03:03:34Z) - Representation Noising: A Defence Mechanism Against Harmful Finetuning [28.451676139178687]
オープンソースの大規模言語モデル(LLM)のリースは、悪質なアクターがこれらのモデルを有害な目的のために簡単に微調整できるため、デュアルユースリスクをもたらす。
本稿では,攻撃者が重みにアクセスできる場合でも,防御機構であるRepresentation Noising(RepNoise)を提案する。
論文 参考訳(メタデータ) (2024-05-23T13:51:55Z) - Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大きな言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。
本稿では,安全アライメントの反転が可能なトレーニングフリーアタック手法を提案する。
本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。
論文 参考訳(メタデータ) (2024-02-19T18:16:51Z) - Forbidden Facts: An Investigation of Competing Objectives in Llama-2 [3.541570601342306]
我々はLlama-2に、正しい答えを言うのを禁止しながら、真実にリコールステートメントを完了するよう指示する。
これはしばしば、モデルに誤った答えを与える。
Llama-2を1000以上の成分に分解し、正しい解を禁ずるのがいかに有用かに関してそれぞれをランク付けする。
論文 参考訳(メタデータ) (2023-12-14T10:27:15Z) - LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B [0.10414713311972776]
本稿では,Llama 2-Chatの微調整による言語モデルの安全性トレーニングの堅牢性について検討する。
本手法は,有害な指示に従うことを拒否する率を大幅に削減する。
逆微調整は実用的かつ効果的であることを示し、それゆえ、微調整によるリスク評価がリスク評価の中核となるべきであると論じる。
論文 参考訳(メタデータ) (2023-10-31T16:55:06Z) - Watermarking LLMs with Weight Quantization [61.63899115699713]
本稿では,大規模言語モデルの量子化過程に透かしを植え付ける新しい透かし戦略を提案する。
GPT-Neo や LLaMA など,オープンソースの大規模言語モデルに透かしを組み込むことに成功した。
論文 参考訳(メタデータ) (2023-10-17T13:06:59Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Llama 2: Open Foundation and Fine-Tuned Chat Models [65.43397761706336]
Llama 2は、事前訓練と微調整を施した大規模言語モデル(LLM)のコレクションである。
Llama 2-Chatと呼ばれる細調整 LLM は対話のユースケースに最適化されている。
論文 参考訳(メタデータ) (2023-07-18T14:31:57Z) - Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on
Self-Chat Data [101.63682141248069]
ChatGPTのようなチャットモデルは印象的な機能を示しており、多くのドメインで急速に採用されている。
本稿では,ChatGPTを利用して,高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。
我々は,オープンソースの大規模言語モデルであるLLaMAを強化するために,パラメータ効率のチューニングを用いる。
論文 参考訳(メタデータ) (2023-04-03T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。