Fugu-MT 論文翻訳(概要): Using Hallucinations to Bypass GPT4's Filter

論文の概要: Using Hallucinations to Bypass GPT4's Filter

arxiv url: http://arxiv.org/abs/2403.04769v2
Date: Mon, 11 Mar 2024 01:21:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 13:18:13.887028
Title: Using Hallucinations to Bypass GPT4's Filter
Title（参考訳）: 幻覚を用いたgpt4フィルタのバイパス
Authors: Benjamin Lemkin
Abstract要約: 本稿では,RLHF前の動作に逆転するように微調整したバージョンを操作する新しい手法を提案する。このエクスプロイトは現在、GPT4、Claude Sonnet、および(ある程度は)Inflection-2.5で動作する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are initially trained on vast amounts of data, then fine-tuned using reinforcement learning from human feedback (RLHF); this also serves to teach the LLM to provide appropriate and safe responses. In this paper, we present a novel method to manipulate the fine-tuned version into reverting to its pre-RLHF behavior, effectively erasing the model's filters; the exploit currently works for GPT4, Claude Sonnet, and (to some extent) for Inflection-2.5. Unlike other jailbreaks (for example, the popular "Do Anything Now" (DAN) ), our method does not rely on instructing the LLM to override its RLHF policy; hence, simply modifying the RLHF process is unlikely to address it. Instead, we induce a hallucination involving reversed text during which the model reverts to a word bucket, effectively pausing the model's filter. We believe that our exploit presents a fundamental vulnerability in LLMs currently unaddressed, as well as an opportunity to better understand the inner workings of LLMs during hallucinations.
Abstract（参考訳）: 大規模言語モデル(LLM)は、最初は大量のデータに基づいて訓練され、次に人間からのフィードバック(RLHF)からの強化学習を用いて微調整される。本稿では, モデルフィルタを効果的に消去する手法として, GPT4 や Claude Sonnet , Inflection-2.5 などが提案されている。他のジェイルブレイク(例えば、人気の高い"Do Anything Now"(DAN))とは異なり、我々の手法はLLMにRLHFポリシーをオーバーライドするように指示することに依存しないので、単にRLHFプロセスを変更するだけでは対処できない。その代わりに、モデルがワードバケットに回帰する間、逆テキストを含む幻覚を誘導し、効果的にモデルのフィルタを一時停止する。我々は,LLMの内部動作をよりよく理解する機会として,現在未適応のLLMに根本的な脆弱性が存在すると信じている。

関連論文リスト

LLM Hypnosis: Exploiting User Feedback for Unauthorized Knowledge Injection to All Users [50.18141341939909]
ユーザフィードバックで訓練された言語モデルにおける脆弱性について説明する。単一ユーザは、LMの知識と振る舞いを永続的に変更することができる。この攻撃は、モデルがこれまで持っていなかった事実的知識を挿入するのに有効であることを示す。
論文参考訳（メタデータ） (2025-07-03T17:55:40Z)
Lost in Sequence: Do Large Language Models Understand Sequential Recommendation? [33.92662524009036]
大きな言語モデル(LLM)は、高度なテキスト理解能力とコンテキスト認識のおかげで、推奨のための有望なツールとして登場した。本稿では,事前学習したSRecモデルから抽出したユーザ表現をLLMに蒸留することにより,LLMへのシーケンシャル情報の統合を向上する手法を提案する。実験の結果, LLM-SRecは, ユーザの項目間相互作用の系列を理解する能力を高め, 最終的にレコメンデーション性能の向上につながることがわかった。
論文参考訳（メタデータ） (2025-02-19T17:41:09Z)
Mission Impossible: A Statistical Perspective on Jailbreaking LLMs [6.627477206883248]
大規模言語モデル(LLM)は、限られた品質制御を伴う大量のテキストデータに基づいて訓練される。プライオリティアライメント(英語版)と呼ばれる対策には、所望の振る舞いを注意深く記述したテキスト例で事前訓練されたLLMを微調整することが含まれる。本稿は、統計的観点から、嗜好調整と脱獄現象に関する理論的知見を提供する。
論文参考訳（メタデータ） (2024-08-02T17:55:50Z)
PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition [10.476666078206783]
大規模言語モデル(LLM)は多くの自然言語処理タスクで成功している。 Llama 2やClaude 2のような安全アライメントのLLMは、厳格な安全アライメントプロセスにもかかわらず、今でもジェイルブレイクの影響を受けやすい。 PARDENは、単にモデルに自身の出力を繰り返すように頼み、ドメインシフトを避ける。
論文参考訳（メタデータ） (2024-05-13T17:08:42Z)
FLAME: Factuality-Aware Alignment for Large Language Models [86.76336610282401]
従来のアライメントプロセスでは,大規模言語モデル(LLM)の事実精度が向上しない。両段階の幻覚につながる要因は,教師付き微調整(SFT)と強化学習(RL)である。直接選好最適化により,事実認識型SFTと事実認識型RLで構成された事実認識型アライメントを提案する。
論文参考訳（メタデータ） (2024-05-02T17:54:54Z)
Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。 LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文参考訳（メタデータ） (2024-02-21T18:59:13Z)
Feedback Loops With Language Models Drive In-Context Reward Hacking [78.9830398771605]
フィードバックループがコンテキスト内報酬ハッキング(ICRH)を引き起こす可能性があることを示す。 ICRHに繋がる2つのプロセス、すなわちアウトプット・リファインメントとポリシー・リファインメントを同定し研究する。 AI開発が加速するにつれて、フィードバックループの効果が増大する。
論文参考訳（メタデータ） (2024-02-09T18:59:29Z)
Make Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs [31.80386572346993]
LLMが有害な要求を拒絶しても、有害な応答が出力ロジットの奥深くに隠されることがよくあります。このアプローチは、脱獄方法と異なり、有効性は62%に対して92%、高速性は10～20倍である。本研究は, コーディングタスクに特化して設計されたモデルから, 有毒な知識を抽出できることを示唆する。
論文参考訳（メタデータ） (2023-12-08T01:41:36Z)
RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback [103.08766858584049]
RLHF-Vは、微粒な人間のフィードバックから行動アライメントを通じてMLLMの信頼性を高める。自動評価と人的評価の両方で5つのベンチマーク実験を行った結果、RLHF-Vはより信頼性の高いMLLM動作を可能にすることがわかった。
論文参考訳（メタデータ） (2023-12-01T11:36:08Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)
Removing RLHF Protections in GPT-4 via Fine-Tuning [29.92082445618812]
微調整により、攻撃者は340のサンプルと95%の成功率でRLHF保護を除去できる。我々は,RLHF保護の除去は,非検閲出力の有用性を低下させるものではないことを示した。
論文参考訳（メタデータ） (2023-11-09T17:54:59Z)
DeepInception: Hypnotize Large Language Model to Be Jailbreaker [70.34096187718941]
大規模言語モデル(LLM)は様々な用途で大きく成功しているが、相変わらず敵のジェイルブレイクの影響を受けやすい。 LLMのパーソナライズ機能を活用して$textita仮想ネストシーンを構築する手法を提案する。経験的に,本手法によって引き起こされた内容は,従来と異なる有害度率を達成することができる。
論文参考訳（メタデータ） (2023-11-06T15:29:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。