Fugu-MT 論文翻訳(概要): Evaluating Adversarial Vulnerabilities in Modern Large Language Models

論文の概要: Evaluating Adversarial Vulnerabilities in Modern Large Language Models

arxiv url: http://arxiv.org/abs/2511.17666v1
Date: Fri, 21 Nov 2025 01:23:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-25 18:34:24.34468
Title: Evaluating Adversarial Vulnerabilities in Modern Large Language Models
Title（参考訳）: 現代大規模言語モデルにおける対立的脆弱性の評価
Authors: Tom Perel,
Abstract要約: 本稿では、2つの主要な公開言語モデル(LLM)に対するジェイルブレイク攻撃に対する感受性の比較分析を行う。この研究は「自己バイパス」と「横断バイパス」の2つの主要なバイパス戦略を利用した。攻撃の成功は、禁止されたコンテンツの生成によって決定され、ジェイルブレイクの成功によって重度スコアが割り当てられた。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent boom and rapid integration of Large Language Models (LLMs) into a wide range of applications warrants a deeper understanding of their security and safety vulnerabilities. This paper presents a comparative analysis of the susceptibility to jailbreak attacks for two leading publicly available LLMs, Google's Gemini 2.5 Flash and OpenAI's GPT-4 (specifically the GPT-4o mini model accessible in the free tier). The research utilized two main bypass strategies: 'self-bypass', where models were prompted to circumvent their own safety protocols, and 'cross-bypass', where one model generated adversarial prompts to exploit vulnerabilities in the other. Four attack methods were employed - direct injection, role-playing, context manipulation, and obfuscation - to generate five distinct categories of unsafe content: hate speech, illegal activities, malicious code, dangerous content, and misinformation. The success of the attack was determined by the generation of disallowed content, with successful jailbreaks assigned a severity score. The findings indicate a disparity in jailbreak susceptibility between 2.5 Flash and GPT-4, suggesting variations in their safety implementations or architectural design. Cross-bypass attacks were particularly effective, indicating that an ample amount of vulnerabilities exist in the underlying transformer architecture. This research contributes a scalable framework for automated AI red-teaming and provides data-driven insights into the current state of LLM safety, underscoring the complex challenge of balancing model capabilities with robust safety mechanisms.
Abstract（参考訳）: 最近のブームとLLM(Large Language Models)の幅広いアプリケーションへの迅速な統合は、セキュリティと安全性の脆弱性をより深く理解することを保証している。本稿では,GoogleのGemini 2.5 FlashとOpenAIのGPT-4(特にフリーティアでアクセス可能なGPT-4oミニモデル)の2つの主要なLLMに対して,Jailbreak攻撃に対する感受性の比較分析を行った。この研究は2つの主要なバイパス戦略を利用した: 「セルフ・バイパス」、モデルが自身の安全プロトコルを回避するよう促された「クロス・バイパス」、一方が生成したモデルが他方の脆弱性を悪用するよう促された「クロス・バイパス」である。ダイレクトインジェクション、ロールプレイング、コンテキスト操作、難読化という4つの攻撃方法が採用され、ヘイトスピーチ、違法な活動、悪意のあるコード、危険なコンテンツ、誤情報という5つの異なる種類の安全でないコンテンツを生成した。攻撃の成功は、禁止されたコンテンツの生成によって決定され、ジェイルブレイクの成功によって重度スコアが割り当てられた。この結果から, 2.5 Flash と GPT-4 のジェイルブレイク感受性の相違が示唆され, 安全性実装やアーキテクチャ設計の差異が示唆された。クロスバイパス攻撃は特に効果的であり、基盤となるトランスフォーマーアーキテクチャには多数の脆弱性が存在することを示している。この研究は、AIの自動化のためのスケーラブルなフレームワークを提供し、LLMの安全性の現状に関するデータ駆動の洞察を提供し、堅牢な安全性メカニズムとモデル機能のバランスをとるという複雑な課題を浮き彫りにしている。

関連論文リスト

DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文参考訳（メタデータ） (2025-09-29T05:17:10Z)
Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。 SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。 SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文参考訳（メタデータ） (2025-07-29T17:39:48Z)
InfoFlood: Jailbreaking Large Language Models with Information Overload [16.626185161464164]
過度の言語的複雑さが組込み安全性メカニズムを阻害する新たな脆弱性を同定する。我々は、悪意のあるクエリを複雑な情報過剰なクエリに変換するジェイルブレイク攻撃であるInfoFloodを提案する。広く使用されている4つのLLM-GPT-4o, GPT-3.5-turbo, Gemini 2.0, LLaMA 3.1に対するInfoFloodの有効性を実証的に検証した。
論文参考訳（メタデータ） (2025-06-13T23:03:11Z)
GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文参考訳（メタデータ） (2025-06-11T09:09:12Z)
T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文参考訳（メタデータ） (2025-05-10T16:04:52Z)
T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文参考訳（メタデータ） (2025-04-22T01:18:42Z)
Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms [0.9091225937132784]
我々は、従来のデータプレーンの脆弱性に対して、重要な制御プレーン攻撃面を明らかにする。本稿では、構造的出力制約を武器として安全機構をバイパスする新しいジェイルブレイククラスであるConstrained Decoding Attackを紹介する。本研究は, 現状のLLMアーキテクチャにおける重要なセキュリティ盲点を明らかにし, 制御面脆弱性に対処するため, LLM安全性のパラダイムシフトを促すものである。
論文参考訳（メタデータ） (2025-03-31T15:08:06Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [21.02295266675853]
我々は,新たなブラックボックスジェイルブレイク攻撃手法,Analyzing-based Jailbreak (ABJ)を提案する。 ABJは2つの独立した攻撃経路から構成され、モデルのマルチモーダル推論機能を利用して安全機構をバイパスする。我々の研究は、新しいタイプの安全リスクを明らかにし、モデルの推論プロセスにおける暗黙の脆弱性を軽減する緊急の必要性を強調します。
論文参考訳（メタデータ） (2024-07-23T06:14:41Z)
Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。このような攻撃がなぜ成功し、どのように発生できるかを考察する。障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文参考訳（メタデータ） (2023-07-05T17:58:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。