Fugu-MT 論文翻訳(概要): Jailbreaker in Jail: Moving Target Defense for Large Language Models

論文の概要: Jailbreaker in Jail: Moving Target Defense for Large Language Models

arxiv url: http://arxiv.org/abs/2310.02417v1
Date: Tue, 3 Oct 2023 20:32:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 03:21:56.703104
Title: Jailbreaker in Jail: Moving Target Defense for Large Language Models
Title（参考訳）: Jailbreaker in Jail: 大規模言語モデルのためのターゲットディフェンスの移動
Authors: Bocheng Chen, Advait Paliwal, Qiben Yan,
Abstract要約: 大規模言語モデル(LLM)は敵攻撃に対して脆弱である。 LLMは非倫理的な答えを提示することで「無害」に失敗するか、意味のある答えを拒むことで「有害」に失敗する。有効性と無害性を両立させるため,移動目標防御(MTD)強化LLMシステムを設計した。
参考スコア（独自算出の注目度）: 4.426665953648274
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs), known for their capability in understanding and following instructions, are vulnerable to adversarial attacks. Researchers have found that current commercial LLMs either fail to be "harmless" by presenting unethical answers, or fail to be "helpful" by refusing to offer meaningful answers when faced with adversarial queries. To strike a balance between being helpful and harmless, we design a moving target defense (MTD) enhanced LLM system. The system aims to deliver non-toxic answers that align with outputs from multiple model candidates, making them more robust against adversarial attacks. We design a query and output analysis model to filter out unsafe or non-responsive answers. %to achieve the two objectives of randomly selecting outputs from different LLMs. We evaluate over 8 most recent chatbot models with state-of-the-art adversarial queries. Our MTD-enhanced LLM system reduces the attack success rate from 37.5\% to 0\%. Meanwhile, it decreases the response refusal rate from 50\% to 0\%.
Abstract（参考訳）: 大きな言語モデル(LLM)は、その理解と指示に従う能力で知られており、敵の攻撃に対して脆弱である。研究者らは、現在の商用LCMは非倫理的な答えを提示することで「無害」であるか、あるいは敵対的なクエリに直面した場合に有意義な答えを出すことを拒んで「無害」であるかを見出した。有効性と無害性を両立させるため,移動目標防御(MTD)強化LLMシステムを設計した。このシステムは、複数のモデル候補からの出力と一致し、敵の攻撃に対してより堅牢な非有害な回答を提供することを目的としている。我々は、安全でない回答や応答しない回答をフィルタリングするために、クエリと出力の分析モデルを設計する。 %は,異なるLLMからランダムに出力を選択するという2つの目的を達成する。我々は、最新の8つのチャットボットモデルと最先端の逆クエリを評価した。 MTD強化LLMシステムは攻撃成功率を37.5\%から0\%に下げる。一方、応答拒否率は50\%から0\%に減少する。

関連論文リスト

Injecting Falsehoods: Adversarial Man-in-the-Middle Attacks Undermining Factual Recall in LLMs [20.83956587986665]
本稿では,Xmeraを介するインジェクション下でのファクトメモリに対する第一原理的攻撃評価を提案する。自明な命令に基づく攻撃は、最高成功率(最大85.3%)を報告し、同時に不正に答えた質問に対して高い不確実性を持つ。我々は、攻撃されたクエリと攻撃されていないクエリを区別するために、応答不確実性レベルに基づいてランダムフォレスト分類器を訓練する。
論文参考訳（メタデータ） (2025-11-08T08:30:19Z)
Friend or Foe: How LLMs' Safety Mind Gets Fooled by Intent Shift Attack [53.34204977366491]
大きな言語モデル(LLM)は、印象的な機能にもかかわらず、ジェイルブレイク攻撃に対して脆弱なままである。本稿では,攻撃意図について LLM を混乱させる ISA (Intent Shift Attack) を提案する。私たちのアプローチでは、元の要求に対して最小限の編集しか必要とせず、自然で、可読性があり、一見無害なプロンプトをもたらす。
論文参考訳（メタデータ） (2025-11-01T13:44:42Z)
Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。 LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文参考訳（メタデータ） (2025-02-24T15:34:48Z)
DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文参考訳（メタデータ） (2024-11-14T01:48:08Z)
LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文参考訳（メタデータ） (2024-10-27T16:23:26Z)
Denial-of-Service Poisoning Attacks against Large Language Models [64.77355353440691]
LLMはDenial-of-Service(DoS)攻撃に対して脆弱で、スペルエラーや非意味的なプロンプトが[EOS]トークンを生成することなく、無限のアウトプットをトリガーする。本研究では, LLM に対する毒素を用いた DoS 攻撃について提案し, 1 つの毒素を注入することで, 出力長の限界を破ることができることを示した。
論文参考訳（メタデータ） (2024-10-14T17:39:31Z)
QROA: A Black-Box Query-Response Optimization Attack on LLMs [2.7624021966289605]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を持っている。本研究は,問合せのみの相互作用を通じてLCMを利用する最適化戦略であるクエリ応答最適化攻撃(QROA)を紹介する。
論文参考訳（メタデータ） (2024-06-04T07:27:36Z)
Optimization-based Prompt Injection Attack to LLM-as-a-Judge [78.20257854455562]
LLM-as-a-Judgeは、大きな言語モデル(LLM)を使用して、ある質問に対する候補セットから最適な応答を選択する。 LLM-as-a-Judgeに対する最適化に基づくプロンプトインジェクション攻撃であるJiceDeceiverを提案する。評価の結果,JiceDeceiveは既存のプロンプトインジェクション攻撃よりも効果的であることがわかった。
論文参考訳（メタデータ） (2024-03-26T13:58:00Z)
Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。 LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文参考訳（メタデータ） (2024-02-21T18:59:13Z)
Make Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs [31.80386572346993]
LLMが有害な要求を拒絶しても、有害な応答が出力ロジットの奥深くに隠されることがよくあります。このアプローチは、脱獄方法と異なり、有効性は62%に対して92%、高速性は10～20倍である。本研究は, コーディングタスクに特化して設計されたモデルから, 有毒な知識を抽出できることを示唆する。
論文参考訳（メタデータ） (2023-12-08T01:41:36Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked [19.242818141154086]
大規模言語モデル(LLM)は高品質なテキスト生成に人気がある。 LLMは人的価値に合わせても有害なコンテンツを生成できる。我々は、これらの攻撃を防御するための簡単なアプローチであるLSM Self Defenseを提案する。
論文参考訳（メタデータ） (2023-08-14T17:54:10Z)
Universal and Transferable Adversarial Attacks on Aligned Language Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文参考訳（メタデータ） (2023-07-27T17:49:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。