Fugu-MT 論文翻訳(概要): Adversarial Humanities Benchmark: Results on Stylistic Robustness in Frontier Model Safety

論文の概要: Adversarial Humanities Benchmark: Results on Stylistic Robustness in Frontier Model Safety

arxiv url: http://arxiv.org/abs/2604.18487v1
Date: Mon, 20 Apr 2026 16:37:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:53.000287
Title: Adversarial Humanities Benchmark: Results on Stylistic Robustness in Frontier Model Safety
Title（参考訳）: 敵対的人間性ベンチマーク:フロンティアモデル安全における立体ロバスト性に関する結果
Authors: Marcello Galisai, Susanna Cifani, Francesco Giarrusso, Piercosma Bisconti, Matteo Prandi, Federico Pierucci, Federico Sartore, Daniele Nardi,
Abstract要約: 敵対的人間性ベンチマーク(英語版)は、モデル安全性の拒絶が親しみやすい有害なプロンプト形式から移行して生き残るかどうかを評価する。ベンチマークは、意図を維持しながら、人文的な変換を通じて、同じ目的を書き換える。結果、元の攻撃は3.84%の攻撃成功率(ASR)を記録、変換された手法は36.8%から65.0%の範囲で、31のフロンティアモデル全体で55.75%となっている。
参考スコア（独自算出の注目度）: 1.638800175484975
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Adversarial Humanities Benchmark (AHB) evaluates whether model safety refusals survive a shift away from familiar harmful prompt forms. Starting from harmful tasks drawn from MLCommons AILuminate, the benchmark rewrites the same objectives through humanities-style transformations while preserving intent. This extends literature on Adversarial Poetry and Adversarial Tales from single jailbreak operators to a broader benchmark family of stylistic obfuscation and goal concealment. In the benchmark results reported here, the original attacks record 3.84% attack success rate (ASR), while transformed methods range from 36.8% to 65.0%, yielding 55.75% overall ASR across 31 frontier models. Under a European Union AI Act Code-of-Practice-inspired systemic-risk lens, Chemical, biological, radiological and nuclear (CBRN) is the highest bucket. Taken together, this lack of stylistic robustness suggests that current safety techniques suffer from weak generalization: deep understanding of 'non-maleficence' remains a central unresolved problem in frontier model safety.
Abstract（参考訳）: Adversarial Humanities Benchmark (AHB) は、モデル安全性の拒絶が、よく知られた有害なプロンプト形式から移行して生き残るかどうかを評価する。 MLCommons AILuminateから引き出された有害なタスクから始まるこのベンチマークは、意図を維持しながら人文的な変換を通じて同じ目的を書き換える。これは、逆境詩と逆境物語に関する文学を、単一のジェイルブレイクオペレータから、より広範なスタイル的難読化と目標隠蔽のベンチマークファミリまで拡張する。ここで報告されたベンチマークの結果では、最初の攻撃は3.84%の攻撃成功率(ASR)を記録し、変換された手法は36.8%から65.0%の範囲で、31のフロンティアモデル全体で55.75%となっている。欧州連合 AI Act Code-of-Practice-inspiree-practice-inspired systemic-risk Lens, Chemical, biological, radiological and nuclear (CBRN) は最高級バケットである。一体となって考えると、このスタイリスティックな堅牢性の欠如は、現在の安全技術が弱い一般化に苦しむことを示唆している。

関連論文リスト

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model [50.29667251847595]
モデルサイズが大きく,安全性が向上しているにもかかわらず,教師と生徒の言語モデルの間にはアライメントギャップがあることが示される。本稿では,不安全な動作を潜在空間のベースLLMに還元するBoNサンプリング手法を提案する。特に7つの教師モデルと6つの生徒モデルが異なるクラスとサイズで、平均攻撃成功率(ASR)はDANで28.2%、WildJailbreakで31.3%、StrongREJECTベンチマークで35.4%低下した。
論文参考訳（メタデータ） (2026-04-01T02:42:41Z)
Replicating TEMPEST at Scale: Multi-Turn Adversarial Attacks Against Trillion-Parameter Frontier Models [0.0]
本研究では、TEMPESTマルチターン攻撃フレームワークを用いて、1000の有害な振る舞いに対して8つのベンダーから10のフロンティアモデルを評価する。 6つのモデルが96%から100%の攻撃成功率(ASR)を達成し、4つのモデルが有意な抵抗を示し、ASRは42%から78%であった。
論文参考訳（メタデータ） (2025-12-08T00:30:40Z)
Evaluating the Robustness of Large Language Model Safety Guardrails Against Adversarial Attacks [0.0]
大言語モデル(LLM)の安全ガードレールモデルは有害なコンテンツ生成に対する主要な防御機構として出現している。この調査は、21の攻撃カテゴリにわたる1,445のテストプロンプトで、Meta、Google、IBM、NVIDIA、Alibaba、Allen AIから利用可能な10のガードレールモデルを評価した。
論文参考訳（メタデータ） (2025-11-27T03:01:09Z)
Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models [1.5401871453629499]
本稿では,Large Language Models (LLMs) の汎用的単一ターンジェイルブレイク手法として,敵対詩が機能することを示す。 25のプロプライエタリでオープンウェイトなモデルで、キュレートされた詩的なプロンプトによって高いアタック・サクセス・レート(ASR)が得られ、一部のプロバイダは90%を超えた。
論文参考訳（メタデータ） (2025-11-19T10:14:08Z)
Circumventing Safety Alignment in Large Language Models Through Embedding Space Toxicity Attenuation [13.971909819796762]
大規模言語モデル(LLM)は、医療、教育、サイバーセキュリティといった分野で大きな成功を収めている。埋め込み空間中毒は、敵が入力データの内部意味表現を操作して安全アライメント機構をバイパスする微妙な攻撃ベクトルである。本稿では,線形変換による埋め込み空間における毒性感受性次元の同定と減衰を行う新しいフレームワークETTAを提案する。
論文参考訳（メタデータ） (2025-07-08T03:01:00Z)
Safety Pretraining: Toward the Next Generation of Safe AI [68.99129474671282]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。我々のフレームワークは、セーフティフィルタリング、セーフティリフレージング、Native Refusal、Harmfulness-Tag Annotated Pretrainingの4つの重要なステップで構成されています。我々の安全事前訓練モデルでは、一般的な劣化タスクのパフォーマンスを伴わない標準LLM安全性ベンチマークにおいて、攻撃成功率を38.8%から8.4%に下げている。
論文参考訳（メタデータ） (2025-04-23T17:58:08Z)
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。 PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文参考訳（メタデータ） (2025-01-03T15:40:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。