論文の概要: Metis: Learning to Jailbreak LLMs via Self-Evolving Metacognitive Policy Optimization
- arxiv url: http://arxiv.org/abs/2605.10067v2
- Date: Wed, 13 May 2026 08:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.85066
- Title: Metis: Learning to Jailbreak LLMs via Self-Evolving Metacognitive Policy Optimization
- Title(参考訳): Metis: 自己進化型メタ認知ポリシー最適化によるLLMのジェイルブレイク学習
- Authors: Huilin Zhou, Jian Zhao, Yilu Zhong, Zhen Liang, Xiuyuan Chen, Yuchen Yuan, Tianle Zhang, Chi Zhang, Lan Zhang, Xuelong Li,
- Abstract要約: 我々は、推論時ポリシー最適化としてジェイルブレイクを改定するフレームワークであるMetisを紹介する。
メティスは比較手法の中でも89.2%で最強のアタック成功率(ASR)を達成している。
冗長な探索を最適化に置き換えることで、Metisはトークンコストを平均8.2倍、最大11.4倍に削減する。
- 参考スコア(独自算出の注目度): 51.11398557420066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Red teaming is critical for uncovering vulnerabilities in Large Language Models (LLMs). While automated methods have improved scalability, existing approaches often rely on static heuristics or stochastic search, rendering them brittle against advanced safety alignment. To address this, we introduce Metis, a framework that reformulates jailbreaking as inference-time policy optimization within an adversarial Partially Observable Markov Decision Process (POMDP). Metis employs a self-evolving metacognitive loop to perform causal diagnosis of a target's defense logic and leverages structured feedback as a semantic gradient to refine its policy, offering enhanced interpretability through transparent reasoning traces. Extensive evaluations across 10 diverse models demonstrate that Metis achieves the strongest average Attack Success Rate (ASR) among compared methods at 89.2%, maintaining high efficacy on resilient frontier models (e.g., 76.0% on O1 and 78.0% on GPT-5-chat) where traditional baselines exhibit substantial performance degradation. By replacing redundant exploration with directed optimization, Metis reduces token costs by an average of 8.2x and up to 11.4x. Our analysis reveals that current defenses remain vulnerable to internally-steered, closed-loop reasoning trajectories under the tested settings, highlighting a critical need for next-generation defenses capable of reasoning about safety dynamically during inference.
- Abstract(参考訳): Red Teamingは、Large Language Models(LLMs)の脆弱性を明らかにするために重要である。
自動化された手法はスケーラビリティを向上させる一方で、既存のアプローチは静的ヒューリスティックや確率探索に依存しており、高度な安全アライメントに対して脆弱である。
これを解決するために,我々は,対立する部分的可観測マルコフ決定プロセス(POMDP)内での推論時ポリシー最適化としてジェイルブレイクを再構成するフレームワークであるMetisを紹介した。
メティスは自己進化するメタ認知ループを用いて、標的の防衛ロジックの因果診断を行い、構造化されたフィードバックを意味的勾配として活用してポリシーを洗練させ、透明な推論トレースを通じて解釈可能性を高める。
10種類の多種多様なモデルにわたる広範囲な評価の結果、Metisは89.2%で比較手法の中で最も高い平均攻撃成功率(ASR)を達成し、従来のベースラインが大幅な性能劣化を示す耐障害性フロンティアモデル(例:O1では76.0%、GPT-5-chatでは78.0%)に対して高い有効性を維持することが示されている。
冗長な探索を最適化に置き換えることで、Metisはトークンコストを平均8.2倍、最大11.4倍に削減する。
分析の結果,現行の防衛は,試験条件下での閉ループ推論に弱いままであり,推論中に動的に安全を判断できる次世代防衛の必要性が示唆された。
関連論文リスト
- Mitigating False Positives in Static Memory Safety Analysis of Rust Programs via Reinforcement Learning [9.7161418437872]
Rustプログラムのメモリ安全性を確保するには静的解析ツールが不可欠だ。
RudraやMirCheckerといった既存のツールは、偽陽性率が高い。
本稿では,突発的な警告を自動的に分類・抑制するための新しい強化学習(RL)アプローチを提案する。
論文 参考訳(メタデータ) (2026-05-05T17:21:40Z) - REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - AEGIS : Automated Co-Evolutionary Framework for Guarding Prompt Injections Schema [39.44407870355891]
AEGISは,プロンプトインジェクションのガードのための自動共進化フレームワークである。
攻撃プロンプトと防御プロンプトは、勾配のような自然言語プロンプト最適化技術を用いて互いに反復的に最適化される。
本研究では,実世界のアサイングレーティングデータセットを用いたインジェクション攻撃の評価を行い,本手法が既存のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-08-27T12:25:45Z) - Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes [16.451488374845407]
本稿では,Large Language Models(LLMs)における重大な脆弱性に対処する新しいフレームワークを提案する。
この現象は、医療、法的な分析、科学研究など、高度な領域に重大なリスクをもたらす。
論文 参考訳(メタデータ) (2025-07-25T10:34:51Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Benchmarking Chinese Medical LLMs: A Medbench-based Analysis of Performance Gaps and Hierarchical Optimization Strategies [11.0505830548286]
本研究は,MedBench上の上位10モデルの系統的解析を通じて,粒度の誤差分類を導入する。
10つの主要なモデルの評価は、医療知識のリコールにおいて0.86の精度を達成したにもかかわらず、脆弱性を明らかにしている。
知識境界法と多段階推論の体系的弱点を明らかにする。
論文 参考訳(メタデータ) (2025-03-10T13:28:25Z) - Guiding not Forcing: Enhancing the Transferability of Jailbreaking Attacks on LLMs via Removing Superfluous Constraints [81.14852921721793]
本研究の目的は,勾配に基づくジェイルブレイク手法の伝達可能性を理解し,向上することである。
本稿では,トランスファービリティを解明し,過剰な制約を識別するための新しい概念的枠組みを提案する。
提案手法は, 安全レベルを18.4%から50.3%に変化させたターゲットモデル全体のトランスファー攻撃成功率(T-ASR)を増加させる。
論文 参考訳(メタデータ) (2025-02-25T07:47:41Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。