論文の概要: A Paired Testing Protocol for Batch-Conditioned Refusal Robustness in LLM Serving
- arxiv url: http://arxiv.org/abs/2605.27763v1
- Date: Tue, 26 May 2026 23:22:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.597504
- Title: A Paired Testing Protocol for Batch-Conditioned Refusal Robustness in LLM Serving
- Title(参考訳): LLMにおけるバッチコンディション型拒絶ロバストネスのためのペアテストプロトコル
- Authors: Sahil Kadadekar,
- Abstract要約: 言語モデルの安全性評価は、サービス構成を固定されたバックグラウンドインフラストラクチャとして扱うことが多い。
我々は4つのアーティファクト支援研究をペアテストプロトコルに合成する。
標準vLLMは、現在のスコアフリップ候補に対して22/55ラベルのフリップを再生し、VLLM_BATCH_INIANT=1を有効にすることで、同じテストを0/55フリップに削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety evaluations of language models often treat serving configuration as fixed background infrastructure, but batch condition is an untested treatment variable whenever the same prompt may be evaluated alone, in a synchronized batch, or inside a continuous-batching scheduler. We synthesize four artifact-backed studies into a paired testing protocol: Study A combines local discovery, scorer-corrected adjudication, and true-batching confirmation; Study B tests cross-model generalization; Study C tests continuous-batch composition; and Study D runs a batch-invariant-kernel ablation. The local test finds safety-label changes more often than capability-label changes (0.51% vs. 0.14%), but adjudication of 63 candidate rows leaves only 17 genuine behavioral flips, implying a corrected full-set rate of 0.16%. The 15-model extension finds no detectable universal safety-over-capability skew: flips are near parity (0.94x), alignment type has no detectable association ($p=0.942$, $η^2=0.033$), and output instability is the strongest tested fragility screen ($r=0.909$, bootstrap 95% CI [0.65, 0.97]). In the targeted kernel ablation, standard vLLM reproduces 22/55 label flips on current score-flip candidates, while enabling VLLM_BATCH_INVARIANT=1 reduces the same test to 0/55 flips; the composition test separately finds no aggregate effect at 4.7pp sensitivity. The testing recommendation is exact-stack validation: evaluate refusal at the served batch setting, pair safety prompts with capability controls, and report low-rate directional flips separately from aggregate null effects.
- Abstract(参考訳): 言語モデルの安全性評価は、サービス構成を固定されたバックグラウンドインフラストラクチャとして扱うことが多いが、バッチ条件は、同じプロンプトが単独、同期バッチ、あるいは連続バッチスケジューラ内でのみ評価される場合、テストされていない処理変数である。
実験 A は局所的な発見,スコアの補正,真バッチ確認,B テストのクロスモデル一般化,C テストの連続バッチ合成,D テストはバッチ不変カーネルアブレーションを実行する。
ローカルテストでは、機能ラベルの変更よりも安全ラベルの変更の方が多い(0.51% vs. 0.14%)が、63行の偏見は17行の真の行動フリップしか残っていないため、修正されたフルセット率0.16%が示唆される。
フリップがほぼ同値(0.94x)、アライメントタイプが検出可能なアライメント(p=0.942$, $η^2=0.033$)がなく、出力不安定性は最もテストされた脆弱性画面(r=0.909$, bootstrap 95% CI [0.65, 0.97])である。
目標とするカーネルアブレーションでは、VLLM_BATCH_INVARIANT=1を有効にして22/55ラベルのフリップを現在のスコアフリップ候補で再現し、同じテストを0/55フリップに減少させる。
テストレコメンデーションは、提供されたバッチ設定での拒絶の評価、機能制御によるペア安全性プロンプト、集約されたnull効果とは別途低レートの方向転換を報告する、正確なスタック検証である。
関連論文リスト
- Let the Results Speak: A Replication-First Paradigm for LLM Behavioral Benchmarking [22.825786049667602]
本稿では,1つのヒト・ラタのコンセンサスに有効性を確保するために,複製第一パラダイムを提案する。
楽器を4つの特性で認証する - Kランの信頼性、アーキテクチャ的に異なる審査員間のクロスインストラクトレプリケーション、以前のトレーニングコホートからの審査員による歴史的フットプリントキャリブレーション、事前登録された予測。
本研究は, 自己発達型データ駆動による情緒的伴奏で, 次元は事前に決められず, 手順は9次元に安定化する。
論文 参考訳(メタデータ) (2026-05-27T03:41:11Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - The Verification Tax: Fundamental Limits of AI Auditing in the Rare-Error Regime [0.0]
最も引用されているキャリブレーションの結果は、CIFAR-100上での温度スケーリング後のECEの0.012は、統計的ノイズフロアより下である。
モデル誤差率のエプシロンによるキャリブレーション誤差を推定するミニマックスレートは Theta((Lepsilon/m)2/3) であり、推定器が打ち負かせない。
論文 参考訳(メタデータ) (2026-04-14T16:48:24Z) - Are Benchmark Tests Strong Enough? Mutation-Guided Diagnosis and Augmentation of Regression Suites [49.16055123488827]
十分に強力なテストスイートは、報告された成功率を膨らませながら、妥当だが意味的に正しくないパッチを認めることができる。
STINGは、意味的に変化するプログラムの変種を診断ストレス要因として利用する、ターゲットテスト拡張のためのフレームワークである。
STINGは211インスタンスにまたがる1014の検証テストを生成し、パッチリージョンラインとブランチカバレッジを10.8%、9.5%向上させた。
論文 参考訳(メタデータ) (2026-04-02T01:13:40Z) - SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation [0.0]
SpaceBench-UCは、ペアの空間関係を再現可能な小さなベンチマークである。
ベンチマークパッケージ、バージョン付きプロンプト、ピン付き構成、サンプルごとのチェッカー出力、レポートテーブルをリリースします。
安定拡散1.5, SD 1.5 BoxDiff, SD 1.4 GLIGENの3つのベースラインについて検討した。
論文 参考訳(メタデータ) (2026-01-19T23:37:10Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。
我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:41:53Z) - STAMP: Outlier-Aware Test-Time Adaptation with Stable Memory Replay [76.06127233986663]
テスト時間適応(TTA)は、トレーニングデータとテストデータの間の分散シフトに、未ラベルのデータのみを用いて対処することを目的としている。
本稿では,サンプル認識とオフリエ拒絶の両方を行う問題に注意を払っている。
本稿では,STAble Memory rePlay (STAMP) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-22T16:25:41Z) - Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。