Fugu-MT 論文翻訳(概要): Tail-aware Adversarial Attacks: A Distributional Approach to Efficient LLM Jailbreaking

論文の概要: Tail-aware Adversarial Attacks: A Distributional Approach to Efficient LLM Jailbreaking

arxiv url: http://arxiv.org/abs/2507.04446v2
Date: Wed, 09 Jul 2025 11:52:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-10 13:22:10.066073
Title: Tail-aware Adversarial Attacks: A Distributional Approach to Efficient LLM Jailbreaking
Title（参考訳）: タイル・アウェアの敵攻撃 : 効率的なLLM脱獄への分布的アプローチ
Authors: Tim Beyer, Yan Scholten, Leo Schwinn, Stephan Günnemann,
Abstract要約: 既存の敵攻撃は、通常、単一点、欲張り世代における有害な反応を標的にしている。本稿では,テールリスクを含む出力分布全体を明示的にモデル化する,逆評価のための新しいフレームワークを提案する。我々のフレームワークはまた、異なる攻撃アルゴリズムが出力の害分布にどのように影響するかを分析することができる。
参考スコア（独自算出の注目度）: 44.8238758047607
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To guarantee safe and robust deployment of large language models (LLMs) at scale, it is critical to accurately assess their adversarial robustness. Existing adversarial attacks typically target harmful responses in single-point, greedy generations, overlooking the inherently stochastic nature of LLMs. In this paper, we propose a novel framework for adversarial robustness evaluation that explicitly models the entire output distribution, including tail-risks, providing better estimates for model robustness at scale. By casting the attack process as a resource allocation problem between optimization and sampling, we determine compute-optimal tradeoffs and show that integrating sampling into existing attacks boosts ASR by up to 48% and improves efficiency by up to two orders of magnitude. Our framework also enables us to analyze how different attack algorithms affect output harm distributions. Surprisingly, we find that most optimization strategies have little effect on output harmfulness. Finally, we introduce a data-free proof-of-concept objective based on entropy-maximization to demonstrate how our tail-aware perspective enables new optimization targets. Overall, our findings highlight the importance of tail-aware attacks and evaluation protocols to accurately assess and strengthen LLM safety.
Abstract（参考訳）: 大規模言語モデル(LLM)の安全性とロバストな展開を保証するためには,その逆のロバスト性を正確に評価することが重要である。既存の敵攻撃は、通常、単一点、強欲な世代における有害な反応を標的とし、LLMの本質的に確率的な性質を見越す。本稿では,尾リスクを含む出力分布全体を明示的にモデル化し,スケールにおけるモデルロバスト性評価の精度向上を目的とした,対向ロバスト性評価のための新しいフレームワークを提案する。最適化とサンプリングの資源配分問題としてアタックプロセスをキャストすることにより、計算最適トレードオフを決定し、既存のアタックにサンプリングを統合することでASRが最大48%向上し、最大2桁の効率が向上することを示す。我々のフレームワークはまた、異なる攻撃アルゴリズムが出力損失分布にどのように影響するかを分析することができる。驚くべきことに、ほとんどの最適化戦略は出力の有害性にはほとんど影響しない。最後に,エントロピー最大化に基づくデータフリー概念実証法を導入し,我々のテール・アウェア・パースペクティブが新しい最適化目標をどのように実現しているかを実証する。本研究は, LLMの安全性を正確に評価し, 強化するために, テール・アウェア・アタックと評価プロトコルの重要性を強調した。

関連論文リスト

Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [52.983390470606146]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-08T09:14:38Z)
Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-26T15:04:04Z)
Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文参考訳（メタデータ） (2024-09-17T14:05:58Z)
Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。 ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文参考訳（メタデータ） (2024-06-20T15:12:27Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文参考訳（メタデータ） (2024-06-05T13:06:33Z)
Adaptive importance sampling for heavy-tailed distributions via $\alpha$-divergence minimization [2.879807093604632]
提案手法は,学生の提案分布からターゲットを近似するAISアルゴリズムを提案する。我々は、目標と提案の護衛モーメントを一致させて、位置とスケールパラメータを適応させる。これらの更新は、ターゲットと提案の間の$alpha$-divergenceを最小化し、変動推論と接続する。
論文参考訳（メタデータ） (2023-10-25T14:07:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。