論文の概要: X-Teaming Evolutionary M2S: Automated Discovery of Multi-turn to Single-turn Jailbreak Templates
- arxiv url: http://arxiv.org/abs/2509.08729v1
- Date: Wed, 10 Sep 2025 16:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.500246
- Title: X-Teaming Evolutionary M2S: Automated Discovery of Multi-turn to Single-turn Jailbreak Templates
- Title(参考訳): X-Teaming Evolutionary M2S: Multi-turn to Single-turn Jailbreakテンプレートの自動発見
- Authors: Hyunjun Kim, Junwoo Ha, Sangyoon Yu, Haon Park,
- Abstract要約: M2S(Multi-turn-to-single-turn)は、反復的なリピートを1つの構造化プロンプトに圧縮するが、以前の作業は手書きのテンプレートに頼っていた。
X-Teaming Evolutionary M2Sは言語モデル誘導進化を通じてM2Sテンプレートを発見し最適化する自動フレームワークである。
- 参考スコア(独自算出の注目度): 12.396822247035578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn-to-single-turn (M2S) compresses iterative red-teaming into one structured prompt, but prior work relied on a handful of manually written templates. We present X-Teaming Evolutionary M2S, an automated framework that discovers and optimizes M2S templates through language-model-guided evolution. The system pairs smart sampling from 12 sources with an LLM-as-judge inspired by StrongREJECT and records fully auditable logs. Maintaining selection pressure by setting the success threshold to $\theta = 0.70$, we obtain five evolutionary generations, two new template families, and 44.8% overall success (103/230) on GPT-4.1. A balanced cross-model panel of 2,500 trials (judge fixed) shows that structural gains transfer but vary by target; two models score zero at the same threshold. We also find a positive coupling between prompt length and score, motivating length-aware judging. Our results demonstrate that structure-level search is a reproducible route to stronger single-turn probes and underscore the importance of threshold calibration and cross-model evaluation. Code, configurations, and artifacts are available at https://github.com/hyunjun1121/M2S-x-teaming.
- Abstract(参考訳): M2S(Multi-turn-to-single-turn)は、反復的なリピートを1つの構造化プロンプトに圧縮するが、以前の作業は手書きのテンプレートに頼っていた。
X-Teaming Evolutionary M2Sは言語モデル誘導進化を通じてM2Sテンプレートを発見し最適化する自動フレームワークである。
このシステムは、12ソースからのスマートサンプリングとStrongREJECTにインスパイアされたLDM-as-judgeを組み合わせ、完全に監査可能なログを記録する。
成功閾値を$\theta = 0.70$に設定することで選択圧力を保ち、GPT-4.1上で5つの進化世代、2つの新しいテンプレートファミリー、44.8%の全体的な成功(103/230)を得る。
2500の試験(ジャッジ固定)のバランスのとれたクロスモデルパネルは、構造的なゲインがターゲットによって異なることを示している。
また,プロンプト長とスコアの正の結合も見出され,判断のモチベーションが得られた。
その結果、構造レベルの探索はより強い単一ターンプローブへの再現可能な経路であり、しきい値校正とクロスモデル評価の重要性を浮き彫りにした。
コード、設定、アーティファクトはhttps://github.com/hyunjun1121/M2S-x-teaming.comで入手できる。
関連論文リスト
- Zero-knowledge LLM hallucination detection and mitigation through fine-grained cross-model consistency [10.052307738781678]
大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な能力を示してきたが、幻覚(幻覚)の影響を受けにくい。
Finch-Zkは、FINeの粒度の交差モデルの整合性を利用して、外部の知識源を必要とせず、LLM出力の幻覚を検出・緩和するフレームワークである。
論文 参考訳(メタデータ) (2025-08-19T23:45:34Z) - Evaluating the Use of LLMs for Documentation to Code Traceability [3.076436880934678]
大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。
私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。
その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-06-19T16:18:53Z) - APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。
xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。
我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文 参考訳(メタデータ) (2025-04-04T17:13:57Z) - Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。
ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。
我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文 参考訳(メタデータ) (2025-02-25T19:47:20Z) - ProofAug: Efficient Neural Theorem Proving via Fine-grained Proof Structure Analysis [50.020850767257095]
本稿では,LLMに様々な粒度で自動化手法を付加するProofAugを提案する。
本手法は,オープンソースのDeep-math-7bベースモデルとIsabelle証明アシスタントを用いて,MiniF2Fベンチマークで検証した。
また、ProofAugのLean 4バージョンを実装し、Kimina-Prover-seek-Distill-1.5Bのパス@1のパフォーマンスを44.3%から50.4%に改善します。
論文 参考訳(メタデータ) (2025-01-30T12:37:06Z) - MetaCheckGPT -- A Multi-task Hallucination Detector Using LLM Uncertainty and Meta-models [8.322071110929338]
本稿では,モデル非依存トラックとモデル認識トラックの2つのサブタスクにおいて,勝利解をそれぞれ1位と2位にランク付けした。
モデル評価と統合のためのLCMのメタレグレクタフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T11:56:01Z) - Retrosynthesis Prediction with Local Template Retrieval [112.23386062396622]
特定の標的分子の反応を予測する再合成は、薬物発見に必須の課題である。
本稿では,局所的な反応テンプレート検索手法であるRetroKNNを紹介する。
我々は、広く使われている2つのベンチマーク、USPTO-50KとUSPTO-MITで包括的な実験を行う。
論文 参考訳(メタデータ) (2023-06-07T03:38:03Z) - Error Detection in Large-Scale Natural Language Understanding Systems
Using Transformer Models [0.0]
Alexa、Siri、Cortana、Google Assistantといった大規模な会話アシスタントは、ドメイン、インテント、名前付きエンティティ認識の複数のモデルを使用して、発話毎に処理する。
オフラインのTransformerモデルを用いて、ドメイン分類エラーを検出する。
そこで我々は,RoBERTaモデルから生成した発話エンコーディングと生産システムのNbest仮説を組み合わせた。
論文 参考訳(メタデータ) (2021-09-04T00:10:48Z) - Unsupervised Meta Learning for One Shot Title Compression in Voice
Commerce [0.0]
音声およびモバイルコマース向けの製品タイトル圧縮は、これまで提案されたいくつかの監督モデルでよく研究された問題です。
タイトル圧縮をメタラーニング問題としてモデル化し、1つの例圧縮だけを与えられたタイトル圧縮モデルを学べますか?
16000人の群衆が生成したメタテスト実験の結果、教師なしのメタトレーニングシステムでは、各タスクに1つの例しか見つからず、異なるタスクの学習アルゴリズムを習得できることがわかった。
論文 参考訳(メタデータ) (2021-02-22T03:53:33Z) - Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。
本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。
特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文 参考訳(メタデータ) (2020-12-03T02:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。