論文の概要: LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications
- arxiv url: http://arxiv.org/abs/2603.27355v1
- Date: Sat, 28 Mar 2026 18:03:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.917925
- Title: LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications
- Title(参考訳): LLM準備のハーネス:LLM/RAG応用のための評価、可観測性、CIゲート
- Authors: Alexandre Cristovão Maiorano,
- Abstract要約: 評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a readiness harness for LLM and RAG applications that turns evaluation into a deployment decision workflow. The system combines automated benchmarks, OpenTelemetry observability, and CI quality gates under a minimal API contract, then aggregates workflow success, policy compliance, groundedness, retrieval hit rate, cost, and p95 latency into scenario-weighted readiness scores with Pareto frontiers. We evaluate the harness on ticket-routing workflows and BEIR grounding tasks (SciFact and FiQA) with full Azure matrix coverage (162/162 valid cells across datasets, scenarios, retrieval depths, seeds, and models). Results show that readiness is not a single metric: on FiQA under sla-first at k=5, gpt-4.1-mini leads in readiness and faithfulness, while gpt-5.2 pays a substantial latency cost; on SciFact, models are closer in quality but still separable operationally. Ticket-routing regression gates consistently reject unsafe prompt variants, demonstrating that the harness can block risky releases instead of merely reporting offline scores. The result is a reproducible, operationally grounded framework for deciding whether an LLM or RAG system is ready to ship.
- Abstract(参考訳): 評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
システムは、最小限のAPIコントラクトの下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせて、ワークフローの成功、ポリシーコンプライアンス、基盤性、検索ヒット率、コスト、p95レイテンシを、Paretoフロンティアによるシナリオ重み付き準備性スコアに集約する。
チケットルーティングワークフローとBEIRグラウンドタスク(SciFactとFiQA)のハーネスを、完全なAzureマトリックスカバレッジ(データセット、シナリオ、検索深度、シード、モデルにわたる162/162の有効なセル)で評価します。
結果は、準備性は単一の指標ではないことを示している: sla-first at k=5のFiQAでは、gpt-4.1-miniは準備性と忠実性を導き、gpt-5.2は相当なレイテンシコストを支払う。
Ticket-routingレグレッションゲートは、安全でないプロンプトバリアントを一貫して拒否し、ハーネスが単にオフラインスコアを報告するのではなく、リスクのあるリリースをブロックできることを示した。
その結果、LLMまたはRAGシステムが出荷準備が整っているかどうかを判断するための再現可能な、運用上の基盤となるフレームワークが実現した。
関連論文リスト
- Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Reliable LLM-Based Edge-Cloud-Expert Cascades for Telecom Knowledge Systems [54.916243942641444]
大規模言語モデル(LLM)は、通信などの分野において、自動化の鍵となる存在として浮上している。
本研究では,問合せパイプラインによる意思決定を支援する,エッジクラウドに精通したLLMベースの知識システムについて検討する。
論文 参考訳(メタデータ) (2025-12-23T03:10:09Z) - Quantifying Return on Security Controls in LLM Systems [0.0]
本稿では、残留リスクを定量化するための意思決定指向フレームワークを提案する。
敵のプローブの結果を金融リスク推定と戻り制御の指標に変換する。
論文 参考訳(メタデータ) (2025-12-17T04:58:09Z) - SBASH: a Framework for Designing and Evaluating RAG vs. Prompt-Tuned LLM Honeypots [0.0]
ハニーポット(Honeypots)は、価値ある脅威情報を集めたり、攻撃者を生産システムから遠ざけるために使われるデコイシステムである。
本稿では,軽量なローカルLCMを用いてデータ保護問題を管理するシステムベース注意型シェルハニーポットフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-24T13:41:52Z) - ParaVul: A Parallel Large Language Model and Retrieval-Augmented Framework for Smart Contract Vulnerability Detection [43.41293570032631]
ParaVulは、スマートコントラクト脆弱性検出の信頼性と精度を向上させるための、検索強化フレームワークである。
LLM微調整のためのスパースローランド適応(SLoRA)を開発した。
脆弱性契約データセットを構築し,RAG(Retrieval-Augmented Generation)システムを開発した。
論文 参考訳(メタデータ) (2025-10-20T03:23:41Z) - Small Language Models for Agentic Systems: A Survey of Architectures, Capabilities, and Deployment Trade offs [0.10742675209112619]
小型言語モデル(SLM: 1-12B パラム、時には 20B まで)は十分であり、エージェント処理に優れていることが多い。
オープンおよびプロプライエタリなSLMにまたがって最近のエビデンスを合成し、近代的な評価に結び付ける。
本研究では,不確実性を考慮したルーティングと検証器カスケードを用いたSLMフォールバックシステムを定式化し,実生産目標を反映したエンジニアリングメトリクスを提案する。
論文 参考訳(メタデータ) (2025-10-04T15:48:04Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - A Voter-Based Stochastic Rejection-Method Framework for Asymptotically Safe Language Model Outputs [0.0]
本稿では,LLMの安全性を活用して,安全でない,あるいは低品質な大規模言語モデル(LLM)の出力を防止する手法を提案する。
このシステムでは、LCMチェッカーが生成した出力の受理性に投票し、不承認のしきい値に達すると再生する。
論文 参考訳(メタデータ) (2024-07-24T04:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。