論文の概要: How Many Iterations to Jailbreak? Dynamic Budget Allocation for Multi-Turn LLM Evaluation
- arxiv url: http://arxiv.org/abs/2605.06605v1
- Date: Thu, 07 May 2026 17:25:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.038171
- Title: How Many Iterations to Jailbreak? Dynamic Budget Allocation for Multi-Turn LLM Evaluation
- Title(参考訳): 脱獄の繰り返しはいくつあるか? マルチターンLDM評価のための動的予算配分
- Authors: Shai Feldman, Yaniv Romano,
- Abstract要約: 大規模言語モデル(LLM)の多ターン会話設定における重要なイベントは、しばしば繰り返し対話の後にのみ現れる。
最近のコンフォメーションサバイバルフレームワークは、関心のイベントをトリガーするイテレーション数に基づいて、信頼できる低い予測境界(LPB)を構築している。
DAPROは,マルチターンインタラクションにおいて,時間と時間の境界を設定するための,理論上有効な動的予算配分フレームワークである。
- 参考スコア(独自算出の注目度): 22.523809021772802
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating and predicting the performance of large language models (LLMs) in multi-turn conversational settings is critical yet computationally expensive; key events -- e.g., jailbreaks or successful task completion by an agent -- often emerge only after repeated interactions. These events might be rare, and under any feasible computational budget, remain unobserved. Recent conformal survival frameworks construct reliable lower predictive bounds (LPBs) on the number of iterations to trigger the event of interest, but rely on static budget allocation that is inefficient in multi-turn setups. To address this, we introduce \emph{Dynamic Allocation via PRojected Optimization} (DAPRO), the first theoretically valid dynamic budget allocation framework for bounding the time-to-event in multi-turn LLM interactions. We prove that DAPRO satisfies the budget constraint and provides distribution-free, finite-sample coverage guarantees without requiring the conditional independence between censoring and event times assumed by prior conformal survival approaches. A key theoretical contribution is a novel coverage bound that scales with the square root of the mean censoring weight rather than the worst-case weight, yielding provably tighter guarantees than prior work. Furthermore, DAPRO can be employed to obtain unbiased, low-variance estimates of population-level evaluation metrics, such as the jailbreak rate, under limited computing resources. Comprehensive experiments across agentic task success, adversarial jailbreaks, toxic content generation, and RAG hallucinations using LLMs such as Llama 3.1 and Qwen 2.5 demonstrate that DAPRO consistently achieves coverage closer to the nominal level with lower variance than static baselines, while satisfying the budget constraint.
- Abstract(参考訳): 大規模な言語モデル(LLM)のパフォーマンスをマルチターンの会話設定で評価し、予測することは、非常に高くつくが、重要なイベント -- 例えば、ジェイルブレイクやエージェントによるタスク完了の成功 – は、繰り返し対話の後にのみ発生することが多い。
これらの出来事は稀であり、実現可能な計算予算の下では、観測されないままである。
最近のコンフォメーションサバイバルフレームワークは、関心のイベントをトリガーするイテレーション数に基づいて、信頼性の高い低い予測境界(LPB)を構築するが、マルチターンセットアップでは非効率な静的な予算配分に依存している。
そこで本研究では,マルチターンLDMインタラクションにおける時間とイベントのバウンディングに有効な動的予算配分フレームワークである,PRojected Optimization} (DAPRO)を紹介した。
我々は,DAPROが予算制約を満たすことを証明し,事前のコンフォーマルサバイバルアプローチによって仮定される検閲とイベント時間の条件付き独立性を必要とせず,分布自由で有限サンプルのカバレッジ保証を提供する。
重要な理論的貢献は、最悪の場合の重量よりも平均検閲重量の平方根とスケールする、新しいカバレッジ境界である。
さらに、DAPROは、限られた計算資源の下で、ジェイルブレイク率などの集団レベルの評価指標の偏りのない低分散推定値を得るために用いられる。
Llama 3.1 や Qwen 2.5 のような LLM を用いたエージェント的タスク成功、敵対的ジェイルブレイク、有害なコンテンツ生成、RAG 幻覚に関する総合的な実験により、DAPRO は、予算制約を満たすとともに、静的ベースラインよりも低いばらつきで、名目レベルに近い範囲を一貫して達成していることが示された。
関連論文リスト
- Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents [40.18150559561834]
Budget-Aware Value Tree (BAVT) は、動的検索ツリーとしてマルチホップ推論をモデル化するトレーニングフリーの推論時間フレームワークである。
BAVTは一貫して並列サンプリングベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-13T04:10:27Z) - Scalable and Reliable State-Aware Inference of High-Impact N-k Contingencies [4.588028371034407]
ACパワーフローやACOPFによる全機能停止組合せの排他的評価は日常的な操作では不可能である。
本稿では,高インパクトな$N!-k$の停止シナリオを直接生成するように設計された,スケーラブルでステートアウェアな並行性推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-10T06:55:59Z) - Almost Asymptotically Optimal Active Clustering Through Pairwise Observations [59.20614082241528]
そこで本研究では, ノイズと能動的に収集された応答を用いて, M$アイテムを未知数の$K$個別グループにクラスタリングするための新しい分析フレームワークを提案する。
クラスタリングの精度に対する望ましい信頼性を達成するのに必要なクエリ数の基本的下位境界を確立する。
我々は、一般化された同値比統計の計算可能な変種を開発し、その下限に対する性能ギャップを正確に推定できることを実証的に示す。
論文 参考訳(メタデータ) (2026-02-05T14:16:47Z) - ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。
ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文 参考訳(メタデータ) (2025-12-01T09:44:31Z) - Conformal P-Value in Multiple-Choice Question Answering Tasks with Provable Risk Control [0.0]
本研究では,多目的質問応答(MCQA)における大規模言語モデル(LLM)の信頼性向上を目的とした,テスト強化型コンフォメーション予測(CP)フレームワークを提案する。
CPは予測セットに対して統計的に厳格な限界被覆保証を提供し、重要試験は確立された統計的厳密さを提供する。
本研究は,高度QAアプリケーションにおける信頼性の高いLCMデプロイメントの統計的枠組みを確立する。
論文 参考訳(メタデータ) (2025-08-07T16:46:47Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - f-FERM: A Scalable Framework for Robust Fair Empirical Risk Minimization [9.591164070876689]
本稿では、f-divergence measures(f-FERM)に基づく公正な経験的リスクに対する統一的な最適化フレームワークを提案する。
さらに,f-FERMによるほぼ全てのバッチサイズに対するフェアネス・精度トレードオフの優位性を実証した。
我々の拡張は、不確実集合として$L_p$ノルムの下で f-FERM の目的を分布的に頑健に最適化する手法に基づいている。
論文 参考訳(メタデータ) (2023-12-06T03:14:16Z) - Quantization for decentralized learning under subspace constraints [61.59416703323886]
エージェントがサブスペース制約を最小化するために個々のコスト関数を持つ分散最適化問題を考察する。
本稿では,エージェントが確率化量子化器を用いて推定値を圧縮する適応分散型戦略を提案し,検討する。
この分析は、量子化ノイズのいくつかの一般的な条件下では、平均二乗誤差と平均ビットレートの両方で戦略が安定であることを示している。
論文 参考訳(メタデータ) (2022-09-16T09:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。