論文の概要: Mission Impossible: A Statistical Perspective on Jailbreaking LLMs
- arxiv url: http://arxiv.org/abs/2408.01420v1
- Date: Fri, 2 Aug 2024 17:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 12:38:29.968934
- Title: Mission Impossible: A Statistical Perspective on Jailbreaking LLMs
- Title(参考訳): ミッション・インポッシブル: 脱獄 LLM の統計的展望
- Authors: Jingtong Su, Julia Kempe, Karen Ullrich,
- Abstract要約: 大規模言語モデル(LLM)は、限られた品質制御を伴う大量のテキストデータに基づいて訓練される。
プライオリティアライメント(英語版)と呼ばれる対策には、所望の振る舞いを注意深く記述したテキスト例で事前訓練されたLLMを微調整することが含まれる。
本稿は、統計的観点から、嗜好調整と脱獄現象に関する理論的知見を提供する。
- 参考スコア(独自算出の注目度): 6.627477206883248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are trained on a deluge of text data with limited quality control. As a result, LLMs can exhibit unintended or even harmful behaviours, such as leaking information, fake news or hate speech. Countermeasures, commonly referred to as preference alignment, include fine-tuning the pretrained LLMs with carefully crafted text examples of desired behaviour. Even then, empirical evidence shows preference aligned LLMs can be enticed to harmful behaviour. This so called jailbreaking of LLMs is typically achieved by adversarially modifying the input prompt to the LLM. Our paper provides theoretical insights into the phenomenon of preference alignment and jailbreaking from a statistical perspective. Under our framework, we first show that pretrained LLMs will mimic harmful behaviour if present in the training corpus. Under that same framework, we then introduce a statistical notion of alignment, and lower-bound the jailbreaking probability, showing that it is unpreventable under reasonable assumptions. Based on our insights, we propose an alteration to the currently prevalent alignment strategy RLHF. Specifically, we introduce a simple modification to the RLHF objective, we call E-RLHF, that aims to increase the likelihood of safe responses. E-RLHF brings no additional training cost, and is compatible with other methods. Empirically, we demonstrate that E-RLHF outperforms RLHF on all alignment problems put forward by the AdvBench and HarmBench project without sacrificing model performance as measured by the MT-Bench project.
- Abstract(参考訳): 大規模言語モデル(LLM)は、限られた品質制御を伴う大量のテキストデータに基づいて訓練される。
結果として、LLMは、情報漏洩、偽ニュース、ヘイトスピーチなどの意図しないまたは有害な行動を示すことができる。
プライオリティアライメント(英語版)と呼ばれる対策には、所望の振る舞いを注意深く記述したテキスト例で事前訓練されたLLMを微調整することが含まれる。
それでも実証的な証拠は、好ましく整列されたLSMは有害な行動に誘惑される可能性があることを示している。
いわゆるLDMのジェイルブレイクは、典型的にはLSMへの入力プロンプトの逆修正によって達成される。
本稿は、統計的観点から、嗜好調整と脱獄現象に関する理論的知見を提供する。
まず,事前学習したLLMが,トレーニングコーパスに存在すると有害な行動を模倣することを示す。
同じ枠組みの下で、統計的にアライメントの概念を導入し、ジェイルブレイクの確率を低くし、合理的な仮定では防止できないことを示す。
そこで本研究では,現在普及しているアライメント戦略RLHFの変更を提案する。
具体的には、安全応答の可能性を高めることを目的とした、E-RLHFと呼ばれるRLHFの目的に対する簡単な修正を導入する。
E-RLHFは追加のトレーニングコストを伴わず、他の方法と互換性がある。
MT-Benchプロジェクトのモデル性能を犠牲にすることなく,AdvBenchとHarmBenchプロジェクトのアライメント問題に対して,E-RLHFがRLHFより優れていることを示す。
関連論文リスト
- Buckle Up: Robustifying LLMs at Every Customization Stage via Data Curation [20.176424063726277]
大規模言語モデル(LLM)は「カストミゼーション(customization)」と呼ばれるプロセスを通じて下流アプリケーションに広く適応する。
近年の研究では、LSMを悪意のあるサンプルでチューニングすることで、その堅牢性を損なうことができ、有害なコンテンツを増幅する脆弱性が明らかにされている。
論文 参考訳(メタデータ) (2024-10-03T05:24:38Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
大言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示している。
これらのモデルは、非毒性や脱獄の試みに対するレジリエンスなど、望ましい行動特性を示すことが重要である。
本稿では,パラメータの小さなサブセットを直接編集することで,LLMの特定の振る舞いを効果的に調節できることを観察する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文 参考訳(メタデータ) (2024-06-09T05:04:37Z) - Robustifying Safety-Aligned Large Language Models through Clean Data Curation [11.273749179260468]
大きな言語モデル(LLM)は、有害なコンテンツを含むデータセットでトレーニングされた場合、脆弱性がある。
本稿では,両シナリオにおける敵対的影響に対処するためのデータキュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:50:38Z) - FLAME: Factuality-Aware Alignment for Large Language Models [86.76336610282401]
従来のアライメントプロセスでは,大規模言語モデル(LLM)の事実精度が向上しない。
両段階の幻覚につながる要因は,教師付き微調整(SFT)と強化学習(RL)である。
直接選好最適化により,事実認識型SFTと事実認識型RLで構成された事実認識型アライメントを提案する。
論文 参考訳(メタデータ) (2024-05-02T17:54:54Z) - Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs [9.624124576891075]
既存のアライメント手法は、外部エビデンスとパラメトリックメモリが競合する場合、大きな言語モデル(LLM)をアダプティブ・シャメレオン(Adaptive Chameleon)に導くことができる。
我々は、AIフィードバックを利用してLLMの最適戦略を特定し、コンテキスト間の競合をナビゲートする新しいフレームワーク、Dialectical Alignment(DA)を提案する。
実験の結果,DAは有毒なデータ攻撃防御を20倍に改善し,追加のプロンプトエンジニアリングを必要としないことがわかった。
論文 参考訳(メタデータ) (2024-03-30T22:41:05Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。