論文の概要: AutoRAN: Weak-to-Strong Jailbreaking of Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2505.10846v1
- Date: Fri, 16 May 2025 04:37:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.070559
- Title: AutoRAN: Weak-to-Strong Jailbreaking of Large Reasoning Models
- Title(参考訳): オートラン:大型共振器モデルの弱々しい脱獄
- Authors: Jiacheng Liang, Tanqiu Jiang, Yuhui Wang, Rongyi Zhu, Fenglong Ma, Ting Wang,
- Abstract要約: 本稿では,大規模な推論モデル(LRM)をターゲットとした,最初の自動的,弱いジェイルブレイク攻撃フレームワークであるAutoRANについて述べる。
コアとなるAutoRANは、ターゲットモデルの高レベル推論構造をシミュレートするために、弱い、整合性の低い推論モデルを活用する。
GPT-o3/o4-mini やGemini-2.5-Flash など,最先端の LRM に対する AutoRAN の評価を行った。
- 参考スコア(独自算出の注目度): 27.085591984556004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents AutoRAN, the first automated, weak-to-strong jailbreak attack framework targeting large reasoning models (LRMs). At its core, AutoRAN leverages a weak, less-aligned reasoning model to simulate the target model's high-level reasoning structures, generates narrative prompts, and iteratively refines candidate prompts by incorporating the target model's intermediate reasoning steps. We evaluate AutoRAN against state-of-the-art LRMs including GPT-o3/o4-mini and Gemini-2.5-Flash across multiple benchmark datasets (AdvBench, HarmBench, and StrongReject). Results demonstrate that AutoRAN achieves remarkable success rates (approaching 100%) within one or a few turns across different LRMs, even when judged by a robustly aligned external model. This work reveals that leveraging weak reasoning models can effectively exploit the critical vulnerabilities of much more capable reasoning models, highlighting the need for improved safety measures specifically designed for reasoning-based models. The code for replicating AutoRAN and running records are available at: (https://github.com/JACKPURCELL/AutoRAN-public). (warning: this paper contains potentially harmful content generated by LRMs.)
- Abstract(参考訳): 本稿では,大規模な推論モデル(LRM)をターゲットとした,最初の自動化された弱いジェイルブレイク攻撃フレームワークであるAutoRANを提案する。
中心となるものとして、AutoRANは弱い整合性の低い推論モデルを利用して、ターゲットモデルの高レベル推論構造をシミュレートし、物語のプロンプトを生成し、ターゲットモデルの中間推論ステップを組み込むことで、候補プロンプトを反復的に洗練する。
我々は,複数のベンチマークデータセット(AdvBench,HarmBench,StrongReject)でGPT-o3/o4-mini,Gemini-2.5-Flashを含む最先端のLEMに対してAutoRANを評価した。
その結果、AutoRANは、頑強に整合した外部モデルで判断された場合であっても、1回または数回で顕著な成功率(100%の達成)を達成することが示された。
この研究は、弱い推論モデルを活用することで、より有能な推論モデルの致命的な脆弱性を効果的に活用できることを明らかにし、推論モデル用に特別に設計された安全対策の改善の必要性を強調している。
AutoRANを複製し、レコードを実行するためのコードは、https://github.com/JACKPURCELL/AutoRAN-public) で利用可能である。
(注意:この論文は、LRMが生成する潜在的有害な内容を含んでいる。)
関連論文リスト
- Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.547353090281284]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - A generative approach to LLM harmfulness detection with special red flag tokens [15.796683630119654]
我々はレッドフラッグトークン(rf>)と呼ばれる特別なトークンでモデルの語彙を拡張することを提案する。
本発明の安全性訓練方法は、会話中に常に有害な生成分類器にLLMを効果的に増強する。
また、入力プロンプトだけでなく、生成された各回答を評価し、サンプリングベースの攻撃に対してより強力な防御を提供する。
論文 参考訳(メタデータ) (2025-02-22T21:48:48Z) - Merger-as-a-Stealer: Stealing Targeted PII from Aligned LLMs with Model Merging [49.270050440553575]
この攻撃を実現するための2段階フレームワークである textttMerger-as-a-Stealer を提案する。
まず、攻撃者は悪意のあるモデルを微調整し、PII関連のクエリに応答するよう強制する。
次に、攻撃者は直接PII関連クエリをマージしたモデルに入力し、ターゲットPIIを抽出する。
論文 参考訳(メタデータ) (2025-02-22T05:34:53Z) - Attack-in-the-Chain: Bootstrapping Large Language Models for Attacks Against Black-box Neural Ranking Models [111.58315434849047]
本稿では,アタック・イン・ザ・チェーン(Attack-in-the-Chain)という新しいランキングアタックフレームワークを紹介する。
大型言語モデル(LLMs)とニューラルランキングモデル(NRMs)の相互作用をチェーン・オブ・ソートに基づいて追跡する。
2つのWeb検索ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-12-25T04:03:09Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Self-Evaluation as a Defense Against Adversarial Attacks on LLMs [20.79833694266861]
自己評価を生かした LLM に対する敵攻撃に対する防御策を導入する。
本手法では, モデル微調整を必要とせず, 生成モデルの入力と出力を評価するために, 事前学習モデルを用いる。
提案手法の有効性を解析し, 各種設定で評価器を攻撃しようとする試みを含む。
論文 参考訳(メタデータ) (2024-07-03T16:03:42Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Black-box Adversarial Attacks against Dense Retrieval Models: A
Multi-view Contrastive Learning Method [115.29382166356478]
本稿では,敵探索攻撃(AREA)タスクを紹介する。
DRモデルは、DRモデルによって取得された候補文書の初期セットの外側にあるターゲット文書を取得するように、DRモデルを騙すことを目的としている。
NRM攻撃で報告された有望な結果は、DRモデルに一般化されない。
マルチビュー表現空間における対照的な学習問題として,DRモデルに対する攻撃を形式化する。
論文 参考訳(メタデータ) (2023-08-19T00:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。