論文の概要: Using Hallucinations to Bypass GPT4's Filter
- arxiv url: http://arxiv.org/abs/2403.04769v2
- Date: Mon, 11 Mar 2024 01:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 13:18:13.887028
- Title: Using Hallucinations to Bypass GPT4's Filter
- Title(参考訳): 幻覚を用いたgpt4フィルタのバイパス
- Authors: Benjamin Lemkin
- Abstract要約: 本稿では,RLHF前の動作に逆転するように微調整したバージョンを操作する新しい手法を提案する。
このエクスプロイトは現在、GPT4、Claude Sonnet、および(ある程度は)Inflection-2.5で動作する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are initially trained on vast amounts of data,
then fine-tuned using reinforcement learning from human feedback (RLHF); this
also serves to teach the LLM to provide appropriate and safe responses. In this
paper, we present a novel method to manipulate the fine-tuned version into
reverting to its pre-RLHF behavior, effectively erasing the model's filters;
the exploit currently works for GPT4, Claude Sonnet, and (to some extent) for
Inflection-2.5. Unlike other jailbreaks (for example, the popular "Do Anything
Now" (DAN) ), our method does not rely on instructing the LLM to override its
RLHF policy; hence, simply modifying the RLHF process is unlikely to address
it. Instead, we induce a hallucination involving reversed text during which the
model reverts to a word bucket, effectively pausing the model's filter. We
believe that our exploit presents a fundamental vulnerability in LLMs currently
unaddressed, as well as an opportunity to better understand the inner workings
of LLMs during hallucinations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最初は大量のデータに基づいて訓練され、次に人間からのフィードバック(RLHF)からの強化学習を用いて微調整される。
本稿では, モデルフィルタを効果的に消去する手法として, GPT4 や Claude Sonnet , Inflection-2.5 などが提案されている。
他のジェイルブレイク(例えば、人気の高い"Do Anything Now"(DAN))とは異なり、我々の手法はLLMにRLHFポリシーをオーバーライドするように指示することに依存しないので、単にRLHFプロセスを変更するだけでは対処できない。
その代わりに、モデルがワードバケットに回帰する間、逆テキストを含む幻覚を誘導し、効果的にモデルのフィルタを一時停止する。
我々は,LLMの内部動作をよりよく理解する機会として,現在未適応のLLMに根本的な脆弱性が存在すると信じている。
関連論文リスト
- FLAME: Factuality-Aware Alignment for Large Language Models [86.76336610282401]
従来のアライメントプロセスでは,大規模言語モデル(LLM)の事実精度が向上しない。
両段階の幻覚につながる要因は,教師付き微調整(SFT)と強化学習(RL)である。
直接選好最適化により,事実認識型SFTと事実認識型RLで構成された事実認識型アライメントを提案する。
論文 参考訳(メタデータ) (2024-05-02T17:54:54Z) - Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs [9.254047358707014]
我々はemphSandwich攻撃と呼ばれる新しいブラックボックス攻撃ベクトル、多言語混合攻撃を導入する。
GoogleのBard, Gemini Pro, LLaMA-2-70-B-Chat, GPT-3.5-Turbo, GPT-4, Claude-3-OPUS の5つの異なるモデルを用いた実験により, この攻撃ベクトルは敵が有害な応答を生成するために使用できることを示した。
論文 参考訳(メタデータ) (2024-04-09T18:29:42Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Make Them Spill the Beans! Coercive Knowledge Extraction from
(Production) LLMs [31.80386572346993]
LLMが有害な要求を拒絶しても、有害な応答が出力ロジットの奥深くに隠されることがよくあります。
このアプローチは、脱獄方法と異なり、有効性は62%に対して92%、高速性は10~20倍である。
本研究は, コーディングタスクに特化して設計されたモデルから, 有毒な知識を抽出できることを示唆する。
論文 参考訳(メタデータ) (2023-12-08T01:41:36Z) - RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from
Fine-grained Correctional Human Feedback [103.08766858584049]
RLHF-Vは、微粒な人間のフィードバックから行動アライメントを通じてMLLMの信頼性を高める。
自動評価と人的評価の両方で5つのベンチマーク実験を行った結果、RLHF-Vはより信頼性の高いMLLM動作を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-12-01T11:36:08Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Removing RLHF Protections in GPT-4 via Fine-Tuning [29.92082445618812]
微調整により、攻撃者は340のサンプルと95%の成功率でRLHF保護を除去できる。
我々は,RLHF保護の除去は,非検閲出力の有用性を低下させるものではないことを示した。
論文 参考訳(メタデータ) (2023-11-09T17:54:59Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。