論文の概要: Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications
- arxiv url: http://arxiv.org/abs/2603.15676v1
- Date: Fri, 13 Mar 2026 20:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.873975
- Title: Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications
- Title(参考訳): 品質ゲートとしての自動自己テスト - LLMアプリケーションのエビデンス駆動リリース管理
- Authors: Alexandre Cristovão Maiorano,
- Abstract要約: 我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM applications are AI systems whose non-deterministic outputs and evolving model behavior make traditional testing insufficient for release governance. We present an automated self-testing framework that introduces quality gates with evidence-based release decisions (PROMOTE/HOLD/ROLLBACK) across five empirically grounded dimensions: task success rate, research context preservation, P95 latency, safety pass rate, and evidence coverage. We evaluate the framework through a longitudinal case study of an internally deployed multi-agent conversational AI system with specific marketing capabilities in active development, covering 38 evaluation runs across 20+ internal releases. The gate identified two ROLLBACK-grade builds in early runs and supported stable quality evolution over a four-week staging lifecycle while exercising persona-grounded, multi-turn, adversarial, and evidence-required scenarios. Statistical analysis (Mann-Kendall trends, Spearman correlations, bootstrap confidence intervals), gate ablation, and overhead scaling indicate that evidence coverage is the primary severe-regression discriminator and that runtime scales predictably with suite size. A human calibration study (n=60 stratified cases, two independent evaluators, LLM-as-judge cross-validation) reveals complementary multi-modal coverage: LLM-judge disagreements with the system gate (kappa=0.13) are attributable to structural failure modes such as latency violations and routing errors that are invisible in response text alone, while the judge independently surfaces content quality failures missed by structural checks, validating the multi-dimensional gate design. The framework, supplementary pseudocode, and calibration artifacts are provided to support AI-system quality assurance and independent replication.
- Abstract(参考訳): LLMアプリケーションは、非決定論的アウトプットと進化するモデルビヘイビアが、従来のテストがリリース管理に不十分なAIシステムである。
本稿では,エビデンスベースのリリース決定(PROMOTE/HOLD/ROLLBACK)を,タスク成功率,研究コンテキストの保存,P95レイテンシ,安全パス率,エビデンスカバレッジの5つの面で導入する自動自己テストフレームワークを提案する。
本研究では,20以上の社内リリースを対象とした38件の評価を対象とし,特定のマーケティング機能を備えた内部展開型マルチエージェント対話型AIシステムの縦断ケーススタディにより評価を行った。
このゲートは、早期実行時に2つのROLLBACKグレードビルドを特定し、4週間のステージングライフサイクルで安定した品質の進化をサポートし、ペルソナ、マルチターン、敵、エビデンス要求シナリオを実行した。
統計的分析(マン=ケンドール傾向、スピアマン相関、ブートストラップ信頼区間、ゲートアブレーション、オーバーヘッドスケーリング)は、エビデンスカバレッジが主要な重回帰判別器であり、実行時スケールがスイートサイズで予測可能であることを示している。
LLM-judgeとシステムゲート(kappa=0.13)との意見の相違は、応答テキストだけでは見えない遅延違反やルーティングエラーなどの構造的障害モードに起因する。
フレームワーク、補足擬似コード、キャリブレーションアーティファクトは、AIシステムの品質保証と独立レプリケーションをサポートするために提供される。
関連論文リスト
- Learning to Pay Attention: Unsupervised Modeling of Attentive and Inattentive Respondents in Survey Data [0.14323566945483493]
注意点検などの従来の安全対策は、コストが高く、反応性があり、一貫性がないことが多い。
補完的な教師なしビューを用いた不注意検出のための統一型ラベルフリーフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-02T22:11:51Z) - The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI [0.0]
本稿では,不確実性の下での潜在特性推定を定量化する新しい監査フレームワークを提案する。
この研究は最適化バイアス、Sycophancy、Status-Quo Legitimizationを含む9つの次元にわたる主要なモデルを監査している。
論文 参考訳(メタデータ) (2026-02-19T06:56:01Z) - From Internal Diagnosis to External Auditing: A VLM-Driven Paradigm for Online Test-Time Backdoor Defense [6.783000267839024]
PRISMは最先端の性能を達成し、CIFAR-10でのアタック成功率を1%に抑えつつ、クリーンな精度を改善し、モデルに依存しない外部セキュリティの新しい標準を確立した。
論文 参考訳(メタデータ) (2026-01-27T10:34:06Z) - The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance [0.0]
現在のAIベースのテストジェネレータは、実行意識のフィードバックがないため、無効、冗長、あるいは実行不可能なテストを生成する。
本稿では,テスト生成エージェント,実行・分析エージェント,レビュー・最適化エージェントが協調してテストの生成,実行,解析,精査を行う,クローズドループの自己修正システムを提案する。
論文 参考訳(メタデータ) (2026-01-05T18:20:14Z) - Cross-LLM Generalization of Behavioral Backdoor Detection in AI Agent Supply Chains [0.0]
本研究は,Cross-LLMビヘイビアバックドア検出に関する最初の体系的研究である。
単一モデル検出器は、トレーニング分布において92.7%の精度を達成するが、異なるLLM間で49.2%しか達成していないことを示す。
追加機能としてのモデル認識モデル同定は,すべての評価モデルに対して90.6%の精度で達成可能であることを示す。
論文 参考訳(メタデータ) (2025-11-25T03:33:04Z) - Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。