論文の概要: When Should an AI Workflow Release? Always-Valid Inference for Black-Box Generate-Verify Systems
- arxiv url: http://arxiv.org/abs/2605.12947v1
- Date: Wed, 13 May 2026 03:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.787489
- Title: When Should an AI Workflow Release? Always-Valid Inference for Black-Box Generate-Verify Systems
- Title(参考訳): AIワークフローはいつリリースされるべきか? Black-Box Generate-Verifyシステムの常にValid推論
- Authors: Young Hyun Cho, Will Wei Sun,
- Abstract要約: LLM対応AIは、繰り返し生成・評価・修正ループを通じて出力を生成する。
デプロイメント時間評価器のスコアが適応的に生成され、繰り返し監視されるため、これは統計的課題を提起する。
既存のジェネレータ評価パイプラインに対して,常に有効なリリースラッパーを提案する。
- 参考スコア(独自算出の注目度): 2.805986764620217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-enabled AI workflows increasingly produce outputs through iterative generate-evaluate-revise loops. Each iteration can improve the candidate, but it also creates a release decision: when to stop and output the current result? This raises a statistical challenge because deployment-time evaluator scores are adaptively generated and repeatedly monitored, yet the likelihood models or exchangeability assumptions typically used for calibration are unavailable. We propose an always-valid release wrapper for existing generator-evaluator pipelines. The wrapper builds a hard-negative reference pool of high-scoring failures, calibrates deployment-time evaluator scores against this pool, and accumulates the resulting evidence with an e-process. This separates two roles: the reference pool turns black-box scores into conservative evidence, while the e-process provides validity under optional stopping. In theory, we show that a conservative reference pool yields finite-sample control of the probability of releasing on infeasible tasks, that is, tasks for which the given workflow is not capable of producing a reliable solution. We also characterize conditions under which the same conservative rule still achieves nontrivial release on feasible tasks. In an MBPP+ coding-agent case study, the wrapper reduces premature incorrect release relative to baseline stopping rules while still releasing on tasks for which the workflow repeatedly accumulates moderate supporting evidence.
- Abstract(参考訳): LLM対応AIワークフローは、繰り返し生成・評価・修正ループを通じて出力を生成する。
各イテレーションは候補を改善することができるが、リリース決定も生成する。
これは、展開時間評価器のスコアが適応的に生成され、繰り返し監視されるため、統計上の問題を引き起こすが、キャリブレーションに一般的に使用される可能性モデルや交換可能性の仮定は利用できないためである。
既存のジェネレータ評価パイプラインに対して,常に有効なリリースラッパーを提案する。
ラッパーは、高スコア障害のハード負の参照プールを構築し、このプールに対してデプロイメント時間評価器のスコアを校正し、その結果のエビデンスをEプロセスで蓄積する。
参照プールはブラックボックスのスコアを保守的な証拠に変え、Eプロセスはオプションで停止した場合に有効である。
理論的には、保守的な参照プールは、実行不可能なタスク、すなわち与えられたワークフローが信頼できるソリューションを生成できないタスクを解放する確率を有限サンプル制御することを示す。
また、同じ保守的なルールが実行可能なタスクにおいて非自明なリリースをまだ達成している条件も特徴付ける。
MBPP+符号化エージェントのケーススタディでは、ワークフローが適度な支持証拠を繰り返し蓄積するタスクに対して、ラッパーはベースライン停止規則に対して未熟な不正確なリリースを減少させる。
関連論文リスト
- Interactive Critique-Revision Training for Reliable Structured LLM Generation [18.00222080273147]
DPA-GRPOは,構成された検証器の介入による2人プレイヤジェネレータゲームのためのペアアクショントレーニング手法である。
我々は,非正規化ゲームを分析し,厳格に低いリワード介入やリビジョン行動に対する肯定的な確率が,一側偏差を生み出すことを示す。
TaxCalc TY24の実験では、DPA-GRPOはゼロショット生成とジェネレータのみのRLベースラインよりも構造化された決定精度を向上させる。
論文 参考訳(メタデータ) (2026-05-08T17:00:38Z) - CITE: Anytime-Valid Statistical Inference in LLM Self-Consistency [10.34950275095264]
本研究では,モデル応答分布の特異なモードとして,あらかじめ指定した対象解の任意の正当性検証について検討する。
本稿では,任意の所定のレベルで偽認証を確実に制御するCITEアルゴリズムを用いた区間統一試験による認証を提案する。
また、カテゴリセットなしの停止時間率を証明し、メインレジーム内の定数に一致するミニマックスの下限を確立し、信頼度の高い投票に拡張する。
論文 参考訳(メタデータ) (2026-05-07T08:41:51Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - IMPACT-CYCLE: A Contract-Based Multi-Agent System for Claim-Level Supervisory Correction of Long-Video Semantic Memory [73.22944697933603]
既存のパイプラインは不透明でエンドツーエンドの出力を生成し、検査の中間状態は公開しない。
IMPACT-Cycleは,マルチモーダル反復クレームレベルのメンテナンスとして,長時間ビデオ理解を再構築するマルチエージェントシステムである。
論文 参考訳(メタデータ) (2026-04-22T03:03:33Z) - Runtime Execution Traces Guided Automated Program Repair with Multi-Agent Debate [8.424102114588559]
自動プログラム修復(APR)は複雑なロジックエラーとサイレント障害に悩まされる。
現在のLLMベースのAPRメソッドは主に静的であり、ソースコードと基本的なテスト出力に依存している。
我々は、パッチ検証のための共有制約としてランタイム事実を活用するマルチエージェントフレームワークであるTraceRepairを提案する。
論文 参考訳(メタデータ) (2026-04-03T02:23:25Z) - Probabilistic Guarantees for Reducing Contextual Hallucinations in LLMs [0.0]
大規模言語モデル(LLM)は、しばしば文脈幻覚を発生させ、生成されたコンテンツはプロンプトで明示された情報に矛盾したり無視する。
本稿では,この設定における幻覚の低減のための確率的保証を明示的に提供する,モデルに依存しないフレームワークを提案する。
判定されたパイプラインが失敗する確率は、審査員の真偽陽性確率によって決定される速度で低下することを示す。
論文 参考訳(メタデータ) (2026-01-02T10:52:33Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Eliminating Hallucination-Induced Errors in LLM Code Generation with Functional Clustering [0.0]
機能的クラスタリング(Functional Clustering, ブラックボックスラッパー)は, 覚醒によるほとんどすべてのエラーを排除し, 調整可能な信頼スコアを提供する。
我々の検証は、解決可能なタスクのベースラインパス@1を保存するが、返却された回答のエラー率を65%から2%に下げる。
このメソッドはサンプリングとサンドボックスの実行のみを必要とするため、クローズドソースAPIや将来のモデルには適用されない。
論文 参考訳(メタデータ) (2025-05-16T18:19:38Z) - Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。