論文の概要: PASC: Pipeline-Aware Conformal Prediction with Joint Coverage Guarantees for Multi-Stage NLP and LLM Pipelines
- arxiv url: http://arxiv.org/abs/2605.18812v1
- Date: Tue, 12 May 2026 08:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.352087
- Title: PASC: Pipeline-Aware Conformal Prediction with Joint Coverage Guarantees for Multi-Stage NLP and LLM Pipelines
- Title(参考訳): PASC:多段NLPおよびLPMパイプライン用複合被覆保証器を用いたパイプライン対応コンフォーマル予測
- Authors: Varun Kotte,
- Abstract要約: PASC(Pipeline-Aware Split Conformal)は多段関節カバレッジを1つのスカラー共形予測問題に還元する。
3段階のNER -> NED -> エンティティ・タイピングパイプライン上では、PASCは96.4%、ボンフェロニは93.4%、独立CPは86.5%を達成している。
- 参考スコア(独自算出の注目度): 0.11280931253550518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern NLP and LLM systems are pipelines: named entity recognition (NER) -> entity disambiguation (NED) -> entity typing, retrieval-augmented generation (retriever -> reader), and agentic chains of planner -> tool -> critic. Errors compound across stages, but existing uncertainty quantification methods either calibrate each stage independently (no joint coverage) or apply a Bonferroni union bound (joint coverage, but conservative). We present PASC (Pipeline-Aware Split Conformal), which reduces multi-stage joint coverage to a single scalar conformal prediction problem on the joint maximum nonconformity score. PASC provides a finite-sample distribution-free guarantee that all K stages are simultaneously covered with probability at least 1 - alpha, and is nearly tight up to a 1/(n+1) factor. On a three-stage NER -> NED -> entity-typing pipeline over CoNLL-2003, PASC achieves 96.4% end-to-end coverage versus 93.4% for Bonferroni and 86.5% for independent CP, at identical average prediction set size (1.083). Under distribution shift to WNUT-17 Twitter and WikiNEuRal Wikipedia data, PASC empirically maintains the target coverage in the tested shift settings while independent CP collapses to 59%. PASC requires a single quantile computation, runs 1.7x faster than Bonferroni, and scales to K = 6 stages where independent CP drops to 0.53 end-to-end coverage. The same joint-maximum-score reduction applies directly to compound LLM systems and agent pipelines.
- Abstract(参考訳): 名前付きエンティティ認識(NER) ->エンティティ曖昧化(NED) ->エンティティタイピング、検索拡張生成(retriever -> Reader)、およびエージェントチェーンのプランナー ->ツール -> 批判。
誤差は段階によって複雑になるが、既存の不確実な定量化法は各段階を独立に校正するか(共同カバレッジはない)、ボンフェロニ連合境界(共同カバレッジだが保守的)を適用する。
本稿では,多段関節カバレッジを最大非整合点の単一スカラー共形予測問題に還元するPASC(Pipeline-Aware Split Conformal)を提案する。
PASC は、すべての K 段階が少なくとも 1 - α の確率で同時にカバーされ、1/(n+1) 因子にほぼ密接である有限サンプル分布自由保証を提供する。
CoNLL-2003上の3段階のNER-> NED->エンティティタイピングパイプラインでは、PASCは96.4%、ボンフェロニは93.4%、独立CPは86.5%、平均予測セットサイズは1.083である。
WNUT-17 TwitterとWikiNEuRalウィキペディアのデータへの配布シフトの下で、PASCはテストされたシフト設定でターゲットカバレッジを実証的に維持し、独立したCPは59%に崩壊する。
PASCは単一の量子計算を必要とし、Bonferroniより1.7倍高速で動作し、独立したCPが0.53のエンドツーエンドカバレッジに低下するK = 6ステージまでスケールする。
同じ最大スコアと最大スコアの削減は、複合LLMシステムやエージェントパイプラインに直接適用される。
関連論文リスト
- Decoupled Conformal Optimisation: Efficient Prediction Sets via Independent Tuning and Calibration [20.21455697379946]
そこで我々は,列車チューンキャリブレート設計の原則としてデカップリング・コンフォーマル最適化(DCO)を提案する。
DCOは、効率指向構造選択のために独立したチューニングスプリットと、最終共形量子化のための新鮮なキャリブレーションスプリットを使用する。
DCOは,PACスタイルのキャリブレーションに対して,平均予測セットサイズや間隔幅を小さくしながら,名目カバレッジレベルを密に追跡する。
論文 参考訳(メタデータ) (2026-05-18T13:10:21Z) - A Penalty-Free Pipeline for Direct Quantum-Annealer Portfolio Optimization [0.0]
直接量子アニーラーポートフォリオ最適化は、一般にD-Waveハードウェアに送信されるペナルティ符号化QUBOとして定式化される。
この標準定式化は、現在のデバイスでは失敗し、構造的理由を特定する。
期待したリターンから目的のみのQUBOを構築し、それをハードウェア上でサンプリングする。
論文 参考訳(メタデータ) (2026-05-17T19:50:04Z) - The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs [52.709361620508595]
ListOPDは、パラメータの5分の1で8B-SFTベースラインで、学生をドメイン内に持ち込む。
Amazon Fashionでは、3つの事前登録テスト — 細粒度崖間隔テスト、小さなクリップのクロス予測 — がロックされた予測ウィンドウ内に落下し、グリッド解像度以下のクローズドフォーム予測に一致する小さなクリップ値が設定されている。
論文 参考訳(メタデータ) (2026-05-09T06:48:00Z) - Physics-Informed Causal MDPs for Sequential Constraint Repair in Engineering Simulation Pipelines [0.0]
本稿では,制約依存が層状DAGを形成するCMDPのためのフレームワークであるPI-CMDPを紹介する。
工学シミュレーションパイプラインにおける制約修復におけるPI-CMDPのインスタンス化を行う。
論文 参考訳(メタデータ) (2026-04-20T07:40:15Z) - Token Coherence: Adapting MESI Cache Protocols to Minimize Synchronization Overhead in Multi-Agent LLM Systems [0.0]
マルチエージェントLLMオーケストレーションは、エージェント、ステップ、アーティファクトサイズにおいて、単純なブロードキャストの下でO(n x S x |D|)としてスケールする。
この病理は完全状態再放送の構造的残余であり、マルチエージェント協調の固有の性質ではないと私は主張する。
私はArtifact Coherence System(ACS)を構築し、Token Coherence Theoremを証明します。
論文 参考訳(メタデータ) (2026-03-16T12:20:06Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training [54.8494905524997]
分散トレーニングは、信頼できない、地理的に分散したノードで実行される場合、重大なセキュリティリスクをもたらす。
重複のないパイプライン並列性(PP)トレーニングの検証機構であるSENTINELを提案する。
実験では、モデル収束と性能を維持しながら、最大176人の労働者を持つ信頼できない分散環境における最大4BパラメータLSMのトレーニングを成功させた。
論文 参考訳(メタデータ) (2026-03-03T23:51:10Z) - Ensemble Threshold Calibration for Stable Sensitivity Control [0.0]
本稿では,数千万組の幾何対もの幾何に対して,過度に分散した正確なリコールを実現するエンド・ツー・エンドのフレームワークを提案する。
我々のアプローチは、小さなエラーで常にリコールターゲットにヒットし、他のキャリブレーションと比較して冗長な検証を減らし、単一のTPU v3コア上でエンドツーエンドで実行します。
論文 参考訳(メタデータ) (2025-10-02T15:22:28Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - One Sample is Enough to Make Conformal Prediction Robust [53.78604391939934]
共形予測は, 1つのランダムな摂動入力に対して前方通過しても, ある程度の堅牢性が得られることを示す。
提案手法は,入力毎に多数のパス(例えば100回程度)を使用するSOTA法と比較して,平均セットサイズが小さいロバストな集合を返す。
論文 参考訳(メタデータ) (2025-06-19T19:14:25Z) - Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。
我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。