Fugu-MT 論文翻訳(概要): LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked

論文の概要: LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked

arxiv url: http://arxiv.org/abs/2308.07308v1
Date: Mon, 14 Aug 2023 17:54:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 12:08:08.398479
Title: LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked
Title（参考訳）: llm自己防衛:自己検査によって、llmは彼らが騙されていることを知っている
Authors: Alec Helbling, Mansi Phute, Matthew Hull and Duen Horng Chau
Abstract要約: 大規模言語モデル(LLM)は、人間のプロンプトに応答して高品質なテキストを生成する能力により、近年急速に人気が高まっている。これらのモデルは、ユーザプロンプトに応じて有害なコンテンツを生成する可能性があることが示されている。本稿では,大規模な言語モデルで独自の応答をフィルタすることで,これらの攻撃を防御する簡単な手法を提案する。
参考スコア（独自算出の注目度）: 19.675173515690442
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have skyrocketed in popularity in recent years due to their ability to generate high-quality text in response to human prompting. However, these models have been shown to have the potential to generate harmful content in response to user prompting (e.g., giving users instructions on how to commit crimes). There has been a focus in the literature on mitigating these risks, through methods like aligning models with human values through reinforcement learning. However, it has been shown that even aligned language models are susceptible to adversarial attacks that bypass their restrictions on generating harmful text. We propose a simple approach to defending against these attacks by having a large language model filter its own responses. Our current results show that even if a model is not fine-tuned to be aligned with human values, it is possible to stop it from presenting harmful content to users by validating the content using a language model.
Abstract（参考訳）: 近年、人間のプロンプトに応じて高品質なテキストを生成する能力から、大規模言語モデル(llm)の人気が高まっている。しかし、これらのモデルは、ユーザープロンプト(例えば、ユーザーが犯罪を犯す方法を指示するなど)に応じて有害なコンテンツを生成する可能性があることが示されている。強化学習によるモデルと人間の価値を整合させる手法を通じて、これらのリスクの緩和に関する文献に焦点が当てられている。しかし、アライメントされた言語モデルでさえ、有害テキスト生成の制限を回避できる敵攻撃の影響を受けやすいことが示されている。本稿では,大規模な言語モデルで独自の応答をフィルタすることで,これらの攻撃を防御する簡単な手法を提案する。現在の結果から,モデルが人間の価値観に適合するように微調整されていなくても,言語モデルを用いてコンテンツを検証することで,有害なコンテンツをユーザに提示することを止めることができる。

関連論文リスト

Enhancing Jailbreak Attacks on LLMs via Persona Prompts [39.73624426612256]
Jailbreak攻撃は、有害なコンテンツを生成するよう誘導することで、大きな言語モデル(LLM)を活用することを目的としている。以前のジェイルブレイクアプローチは、主に有害な意図を直接操作することに焦点を当てており、ペルソナのプロンプトの影響に限られた注意を払っている。 LLMの安全性機構をバイパスするペルソナを自動生成する遺伝的アルゴリズムに基づく手法を提案する。
論文参考訳（メタデータ） (2025-07-28T12:03:22Z)
Denial-of-Service Poisoning Attacks against Large Language Models [64.77355353440691]
LLMはDenial-of-Service(DoS)攻撃に対して脆弱で、スペルエラーや非意味的なプロンプトが[EOS]トークンを生成することなく、無限のアウトプットをトリガーする。本研究では, LLM に対する毒素を用いた DoS 攻撃について提案し, 1 つの毒素を注入することで, 出力長の限界を破ることができることを示した。
論文参考訳（メタデータ） (2024-10-14T17:39:31Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
MaPPing Your Model: Assessing the Impact of Adversarial Attacks on LLM-based Programming Assistants [14.947665219536708]
本稿では,攻撃者がプログラムタスクのプロンプトに少量のテキストを付加するMalicious Programming Prompt(MaPP)攻撃を紹介する。我々の迅速な戦略は、LSMが他の方法で正しいコードを書き続けながら脆弱性を追加する可能性があることを示しています。
論文参考訳（メタデータ） (2024-07-12T22:30:35Z)
Defending LLMs against Jailbreaking Attacks via Backtranslation [61.878363293735624]
「我々は、バックトランスレーションによる脱獄攻撃からLLMを守る新しい方法を提案する。」推測されたプロンプトは、元のプロンプトの実際の意図を明らかにする傾向にある、逆転プロンプトと呼ばれる。我々は、我々の防衛がベースラインを大幅に上回っていることを実証的に実証した。
論文参考訳（メタデータ） (2024-02-26T10:03:33Z)
Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。 LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文参考訳（メタデータ） (2024-02-21T18:59:13Z)
Round Trip Translation Defence against Large Language Model Jailbreaking Attacks [12.664577378692703]
大規模言語モデル(LLM)に対する社会工学的攻撃に対する防御のためのラウンドトリップ翻訳(RTT)手法を提案する。 RTTは敵のプロンプトを表現し、伝達されたアイデアを一般化し、LSMが誘導された有害な行動を検出するのを容易にする。私たちはMathsAttackを緩和し、攻撃の成功率を約40%削減した最初の試みです。
論文参考訳（メタデータ） (2024-02-21T03:59:52Z)
A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。ジェイルブレイク」と呼ばれる敵のプロンプトは保護を回避できる有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文参考訳（メタデータ） (2023-11-14T16:02:16Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
Goal-Oriented Prompt Attack and Safety Evaluation for LLMs [43.93613764464993]
高品質なプロンプト攻撃サンプルを構築するパイプラインと、CPADと呼ばれる中国のプロンプト攻撃データセットを導入する。我々のプロンプトは、慎重に設計されたいくつかのプロンプトアタックテンプレートで、予期せぬ出力を生成するためにLSMを誘導することを目的としている。 GPT-3.5に対する攻撃成功率は70%程度であった。
論文参考訳（メタデータ） (2023-09-21T07:07:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。