論文の概要: Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols
- arxiv url: http://arxiv.org/abs/2604.18245v1
- Date: Mon, 20 Apr 2026 13:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.898497
- Title: Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols
- Title(参考訳): 訂正と破損: LLMプロトコルにおけるエラーフローの2段階的考察
- Authors: Fernando Reitich,
- Abstract要約: そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。
各インスタンスについて、インターフェースはベースラインの正当性ビットと後ステップの正当性ビットを記録する。
これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly deployed as protocols: structured multi-call procedures that spend additional computation to transform a baseline answer into a final one. These protocols are evaluated only by end-to-end accuracy, giving limited insight into when they help, when they hurt, and whether their behavior transfers under distribution shift or composition. We propose a paired-outcome measurement interface for auditing a single protocol step on exact-match tasks. For each instance, the interface records a baseline correctness bit $E_0\in\{0,1\}$ and a post-step correctness bit $E_1\in\{0,1\}$, separating correction ($E_0=0\to E_1=1$) from corruption ($E_0=1\to E_1=0$) through two rates: $c=\Pr(E_1=1\mid E_0=0)$ and $γ=\Pr(E_1=0\mid E_0=1)$. These rates predict accuracy changes and define a reusable empirical interface testable across seeds, mixtures, and pipelines. We identify three failure mechanisms. Under mixture shift, pooled estimates of $(c,γ)$ become biased when calibration and deployment mixtures differ; conditioning on a difficulty proxy restores stability without additional model calls. Under presentation contamination, selection protocols alter the interface through stable presentation artifacts when candidate content is fixed. Under state insufficiency, the correctness bit may not carry enough history for multi-step pipelines to compose predictably; a Markov factorization test identifies when composition is valid and where additional state is needed. When a protocol step passes these diagnostics, it becomes an auditable module: gated by estimated gain, conditioned on a difficulty proxy to correct mixture bias, and composed into multi-step pipelines with predictable accuracy. We demonstrate these ideas on synthetic mathematical tasks and on GSM8K, where the calibrated interface correctly predicts when protocol steps should be activated or suppressed.
- Abstract(参考訳): 大規模言語モデルはプロトコルとしてますます多くデプロイされている: ベースラインの回答を最終的に変換するために追加の計算に費やす構造化されたマルチコールプロシージャ。
これらのプロトコルはエンド・ツー・エンドの精度でのみ評価され、いつ助けられるか、いつ傷つくか、分布シフトや構成の下での行動伝達の有無について限られた洞察を与える。
そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。
それぞれのインスタンスに対して、インターフェースはベースライン正しさビット$E_0\in\{0,1\}$とポストステップ正しさビット$E_1\in\{0,1\}$とを2つのレートで記録する: $c=\Pr(E_1=1\mid E_0=0)$と$γ=\Pr(E_1=0\mid E_0=1)$。
これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
3つの障害機構を同定する。
混合シフトでは、キャリブレーションとデプロイメントの混合が異なる場合、$(c,γ)$のプール推定値がバイアスとなる。
表示汚染下では、選択プロトコルは、候補コンテンツが固定されたときに、安定した表示アーティファクトを通してインターフェースを変更する。
状態不足下では、正当性ビットは多段階パイプラインを構成するのに十分な履歴を持たず、マルコフ分解テストは、構成が有効で、追加の状態が必要かを識別する。
プロトコルステップがこれらの診断をパスすると、推定ゲインによってゲートされ、難易度プロキシに条件付きで混合バイアスを補正し、予測可能な精度でマルチステップパイプラインを構成する、監査可能なモジュールになる。
我々はこれらのアイデアを、合成数学のタスクやGSM8K上で実証し、キャリブレーションされたインタフェースは、いつプロトコルステップをアクティベートするか、あるいは抑制すべきかを正確に予測する。
関連論文リスト
- Tight Convergence Rates for Online Distributed Linear Estimation with Adversarial Measurements [66.94250413799232]
分散パラメータ-サーバ-ワーカー設定における乱数ベクトル$X$の推定について検討する。
主な課題は、敵の計測と非同期である。
その結果, 分散線形推定におけるロバスト性, 識別性, 統計的効率の統一的有限時間評価が得られた。
論文 参考訳(メタデータ) (2026-04-07T11:45:55Z) - Autonomous Hamiltonian certification and changepoint detection [1.2021700665093262]
環境騒音は調整されたハミルトンパラメーターを時間とともに漂流させ、高価な再校正を必要とする。
我々は,自律環境下でのハミルトン認証と変更点検出プロトコルを効率的に開発する。
我々のアプローチは、量子デバイスがシステムや検証操作、信頼できる参照装置を必要とせずに、自身のキャリブレーション状態を自律的に監視することを可能にする。
論文 参考訳(メタデータ) (2026-03-27T17:54:45Z) - The Forecast After the Forecast: A Post-Processing Shift in Time Series [17.131164796761446]
本稿では,デプロイされた時系列予測器を再トレーニングせずに強化する軽量でアーキテクチャに依存しない手法を提案する。
$$-Adapterは2つのインターフェイスで小さな有界モジュールを学習する。
入力を介して粗い水平対応マスクを学習して重要な特徴を選択することで、機能セレクタとして機能する。
また、不確実性を測定するために分布校正器としても使用できる。
論文 参考訳(メタデータ) (2026-01-28T05:55:04Z) - Phase-space entropy at acquisition reflects downstream learnability [54.4100065023873]
楽器分解位相空間に基づく取得レベルスカラー$S_mathcal B$を提案する。
本稿では, (S_mathcal B) が周期サンプリングの位相空間コヒーレンスを正確に同定できることを理論的に示す。
$|S_mathcal B|$は一貫してサンプリングジオメトリをランク付けし、トレーニングなしで下流での再構築/認識の困難を予測します。
論文 参考訳(メタデータ) (2025-12-22T10:03:51Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Coverage-Guaranteed Speech Emotion Recognition via Calibrated Uncertainty-Adaptive Prediction Sets [0.0]
しばしば感情的な抑圧と突然のアウトバーストによって引き起こされる道路の怒りは、衝突や攻撃的な行動を引き起こすことによって道路の安全を著しく脅かす。
音声感情認識技術は、ネガティブな感情を早期に識別し、タイムリーな警告を発することにより、このリスクを軽減することができる。
本稿では,予測精度を統計的に厳格に保証するリスク制御予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T12:26:28Z) - On Computationally Efficient Multi-Class Calibration [9.032290717007065]
プロジェクトのキャリブレーションは、下流の意思決定者全員に強い保証を与えます。
これは、ラベルに割り当てられた確率を$T$にまとめることで予測される確率が、完全に校正されたバイナリ予測器に近いことを保証している。
論文 参考訳(メタデータ) (2024-02-12T17:25:23Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。