論文の概要: MarginGate: Sparse Margin-Triggered Verification for Batch-Invariant LLM Inference
- arxiv url: http://arxiv.org/abs/2605.30218v1
- Date: Thu, 28 May 2026 16:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.557569
- Title: MarginGate: Sparse Margin-Triggered Verification for Batch-Invariant LLM Inference
- Title(参考訳): MarginGate: Batch-invariant LLM推論のためのスパースマージントリガー検証
- Authors: Kexin Chu, Yang Zhou, Wei Zhang,
- Abstract要約: MarginGateはLlama-3.1-8BとQwen2.5-14Bの100%のシーケンスレベルの決定論的デコーディングを18.56%/15.05%で復元する。
我々は、フリップトークンにのみ検証を適用することができるかどうかを問う。
- 参考スコア(独自算出の注目度): 7.261960634383562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temperature-zero BF16 LLM inference is often treated as reproducible, yet the same request can emit different tokens when decoded alone or inside a larger batch. Existing fixes use batch-invariant operators or LLM-42's per-token verification, incurring cost even when most steps are stable. We ask whether verification can be applied exclusively to flipped tokens. Across five models, batch-induced token flips are sparse on the flip-rate benchmarks: on MATH500, Llama-3.1-8B flips on $0.48\%$ of synchronous decode steps, and all tested models stay within the 0.3-1.3% range on MATH500, GSM8K, and HumanEval. K/V perturbations remain flat before flips, while low top-1/top-2 logit margins expose much of the flip risk. MarginGate turns these observations into a verifier policy: it keeps BF16 decoding on high-margin steps, verifies only low-margin steps, and repairs confirmed mismatches by replacing the current K/V column. We evaluate on four datasets, calibrating on MATH500 and transferring to GSM8K, SharedGPT, and HumanEval. MarginGate restores 100% sequence-level deterministic decoding on Llama-3.1-8B and Qwen2.5-14B with 18.56%/15.05% verifier trigger rates, reducing LLM-42's latency increment by 2.23x/1.99x relative to always-on verification. On DSR1-Distill-Qwen-7B, the same policy reaches determinism in a harder regime at 49.50% triggers.
- Abstract(参考訳): 温度ゼロのBF16 LLM推論はしばしば再現可能なものとして扱われるが、同じ要求は、単独またはより大きなバッチ内でデコードされた時に異なるトークンを出力することができる。
既存の修正ではバッチ不変演算子やLSM-42毎の検証が使われており、ほとんどのステップが安定している場合でもコストがかかる。
我々は、フリップトークンにのみ検証を適用することができるかどうかを問う。
MATH500では、Llama-3.1-8Bが0.48\%の同期デコードステップでフリップし、全てのテストされたモデルはMATH500、GSM8K、HumanEvalの0.3-1.3%の範囲に留まる。
K/Vの摂動はフリップ前に平坦であり、トップ-1/トップ-2ロジットマージンはフリップリスクの大部分を露呈する。
マージンゲイトはこれらの観測結果を検証ポリシーに転換し、BF16デコーディングを高いマージンステップで維持し、低いマージンステップのみを検証し、現在のK/Vカラムを置き換えることで確認されたミスマッチを修復する。
我々は,MATH500を校正し,GSM8K,SharedGPT,HumanEvalの4つのデータセットを評価する。
MarginGate は Llama-3.1-8B と Qwen2.5-14B のシーケンスレベルの決定的デコーディングを 18.56%/15.05% のバリデーショントリガレートで復元する。
DSR1-Distill-Qwen-7Bでは、同じ方針が49.50%の引き金でより厳しい体制で決定論に達する。
関連論文リスト
- A Paired Testing Protocol for Batch-Conditioned Refusal Robustness in LLM Serving [0.0]
言語モデルの安全性評価は、サービス構成を固定されたバックグラウンドインフラストラクチャとして扱うことが多い。
我々は4つのアーティファクト支援研究をペアテストプロトコルに合成する。
標準vLLMは、現在のスコアフリップ候補に対して22/55ラベルのフリップを再生し、VLLM_BATCH_INIANT=1を有効にすることで、同じテストを0/55フリップに削減する。
論文 参考訳(メタデータ) (2026-05-26T23:22:55Z) - Sequential Consensus for Multi-Agent LLM Debates: A Wald-SPRT compute governor with calibration-based failure detection [0.0]
マルチエージェントの議論は事実と推論を改善するが、ほとんどのレシピは固定されたラウンドカウントを選択する。
我々は,LLM討論のプラグイン計算として,Wald's Sequential Probability Ratio Test (SPRT)を適用した。
GSM8Kでは、ルールは1.01ラウンド(4.06 LLMコール)で97.0%の精度で終了するが、15回のコールで固定5の討論では99.0%の精度で終了する。
MMLUでは、キャリブレーションされたKLは約0に崩壊し、ルール上限は2.1倍のコストで99.5%となる。
論文 参考訳(メタデータ) (2026-05-18T23:43:12Z) - Latent Phase-Shift Rollback: Inference-Time Error Correction via Residual Stream Monitoring and KV-Cache Steering [4.032680910442999]
大規模な言語モデルは、世代中頃の保存不可能な推論エラーを犯す。
我々は、$textbfLatent Phase-Shift Rollback$ (LPSR)を紹介する。
各生成段階において、臨界層リクリットで残留流をモニタリングし、コサイン相似性$+$エントロピー二重ゲートを介して急激な方向逆転(位相シフト)を検出する。
微調整、勾配計算、追加のフォワードパスは不要である。
論文 参考訳(メタデータ) (2026-04-20T17:53:33Z) - Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols [51.56484100374058]
そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。
各インスタンスについて、インターフェースはベースラインの正当性ビットと後ステップの正当性ビットを記録する。
これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
論文 参考訳(メタデータ) (2026-04-20T13:25:40Z) - Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization [74.91418266859297]
インプシットプロセス報酬モデル(PRM)は、推論プロセスに沿ってきめ細かな報酬信号を提供する。
トレーニングはシーケンスレベルの集約のみを制限しますが、推論はローカルステップの品質を反映するためにトークンレベルのスコアが必要です。
本稿では,予測精度を推定するプレフィックス条件付き値関数を直接学習する新しいインプリシット・プレフィックス・バリュー・リワード・モデル(IPVRM)を提案する。
また,サンプルトークンと高確率候補トークンの両方に対してTDの利点を演算する分散レベルRL(DistRL)を提案する。
論文 参考訳(メタデータ) (2026-04-14T18:19:54Z) - The Verification Tax: Fundamental Limits of AI Auditing in the Rare-Error Regime [0.0]
最も引用されているキャリブレーションの結果は、CIFAR-100上での温度スケーリング後のECEの0.012は、統計的ノイズフロアより下である。
モデル誤差率のエプシロンによるキャリブレーション誤差を推定するミニマックスレートは Theta((Lepsilon/m)2/3) であり、推定器が打ち負かせない。
論文 参考訳(メタデータ) (2026-04-14T16:48:24Z) - SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents [52.20768003832476]
我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
論文 参考訳(メタデータ) (2025-11-26T01:28:22Z) - ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks [12.396822247035578]
目的抽出とメタ認知のためのベンチマークであるexMTを提案する。
マルチターン書き起こしが与えられた場合、モデルは1文ベース目標と自己報告された自信を出力しなければならない。
正確性は金の目標と類似性によって評価され、300の校正項目で1度閾値付けされる。
論文 参考訳(メタデータ) (2025-08-23T03:32:04Z) - Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。
我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:41:53Z) - MarginMatch: Improving Semi-Supervised Learning with Pseudo-Margins [73.17295479535161]
MarginMatchは、一貫性の正規化と擬似ラベルを組み合わせた新しいSSLアプローチである。
トレーニングが進むにつれて、擬似ラベル付きモデル上でのモデルの振る舞いを分析し、低品質な予測が隠蔽されることを確かめる。
CIFAR-100では,クラス毎に25ラベル,STL-10では3.78%,クラス毎に4ラベルで3.25%の誤差率向上を実現した。
論文 参考訳(メタデータ) (2023-08-17T15:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。