論文の概要: Acceptance-Test-Driven Evaluation Protocols for Business-Centric LLM Systems
- arxiv url: http://arxiv.org/abs/2606.02755v1
- Date: Mon, 01 Jun 2026 18:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.536858
- Title: Acceptance-Test-Driven Evaluation Protocols for Business-Centric LLM Systems
- Title(参考訳): 業務中心LLMシステムに対するアクセプタンステスト駆動評価プロトコル
- Authors: Eric Liang,
- Abstract要約: 本稿では,受入テスト駆動型開発を基礎とした運用型大規模言語モデル(LLM)システムに対する評価プロトコール拡張に寄与する。
利害関係者の目標を、実行可能行動契約、リリースゲート、監視信号、エビデンスアーティファクトに翻訳し、プロンプト、モデル、検索、エージェントの変更が受け入れられる。
このコントリビューションは、ガバナンス指向のメトリックスタック、リファレンスアーキテクチャ、そして、アクセプションテスト駆動のLCM開発を、アクセプションファーストとベンチマークアフターに比較するための経験的なプロトコルである。
- 参考スコア(独自算出の注目度): 0.8557392136621891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) applications are increasingly expected to satisfy deterministic institutional requirements while relying on probabilistic generative components. This mismatch makes ordinary post-hoc benchmarking insufficient for systems that must be safe, reliable, auditable, and economically useful. This paper contributes an evaluation-protocol extension for operational LLM systems grounded in acceptance-test-driven development, safety engineering, and business-centric validation. The extension translates stakeholder goals into executable behavioral contracts, release gates, monitoring signals, and evidence artifacts before prompt, model, retrieval, or agent changes are accepted. It adapts the red-green-refactor discipline of test-driven development to a red-train-green lifecycle: first define failing acceptance tests for desired behavior, then improve the LLM system through prompt changes, retrieval design, fine-tuning, guardrails, or data augmentation, and finally release only when multidimensional gates are satisfied. The contribution is a governance-oriented metric stack, reference architecture, and empirical protocol for comparing acceptance-test-driven LLM development against prompt-first and benchmark-after workflows.
- Abstract(参考訳): 大規模言語モデル(LLM)の応用は、確率的生成成分に依存しつつ、決定論的制度要件を満たすことがますます期待されている。
このミスマッチは、安全、信頼性、監査可能、経済的に有用でなければならないシステムに対して、通常のポストホックベンチマークを不十分にする。
本稿では, 受け入れテスト駆動型開発, 安全工学, ビジネス中心の検証を基礎として, 運用用LLMシステムの評価・プロトコル拡張に寄与する。
この拡張は、ステークホルダーの目標を、プロンプト、モデル、検索、エージェントの変更が受け入れられる前に、実行可能な行動契約、リリースゲート、監視信号、エビデンスアーティファクトに変換する。
まず、望ましい振る舞いに対する受け入れテストの失敗を定義し、次に、迅速な変更、検索設計、微調整、ガードレール、データ拡張を通じてLLMシステムを改善する。
このコントリビューションは、ガバナンス指向のメトリックスタック、リファレンスアーキテクチャ、そして、アクセプションテスト駆動のLCM開発を、プロンプトファーストおよびベンチマークアフターワークフローと比較するための経験的なプロトコルである。
関連論文リスト
- LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Test Before You Deploy: Governing Updates in the LLM Supply Chain [3.6704226968275253]
大規模言語モデル(LLM)は、ソフトウェアシステムの中核的な依存関係としてますます使われています。
LLMは明示的なバージョン変更なしにプロバイダ側の更新を通じて継続的に進化する。
本稿では,3つのコンポーネントをベースとしたデプロイメントサイドガバナンスフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-30T12:32:13Z) - From CRUD to Autonomous Agents: Formal Validation and Zero-Trust Security for Semantic Gateways in AI-Native Enterprise Systems [0.0]
本稿では,モデルコンテキストプロトコル(MCP)が管理するセマンティックゲートウェイの設計,形式検証,実証評価を提案する。
ゲートウェイは、エンタプライズAPIをセマンティックサーフェスとして再構成する。
このアーキテクチャでは、事前に推論されたセマンティックファイアウォール、決定論的ツールレベルRBAC、アウトオブバンドの暗号化人間対ループの承認を含む3層ゼロトラストセキュリティモデルが導入されている。
論文 参考訳(メタデータ) (2026-04-28T12:25:06Z) - Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning [79.88942231770629]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を向上させるための訓練後の中心的なツールとなっている。
統一表記によるロールアウトパイプラインの形式化とGenerate-Filter-Control-Replay(GFCR)の導入
検証可能な報酬、プロセスの監督、判断に基づくゲーティング、ガイドとツリー/セグメントのロールアウト、アダプティブな計算割り当て、早期終了と部分的なロールアウト、スループット最適化、自己改善のための再生/再配置でRLにまたがる手法を合成する。
論文 参考訳(メタデータ) (2026-04-08T00:53:29Z) - AgentFixer: From Failure Detection to Fix Recommendations in LLM Agentic Systems [7.429835301272413]
フレームワークには15の障害検出ツールと2つの根本原因分析モジュールが含まれている。
軽量なルールベースのチェックとLDM-as-a-judgeアセスメントを統合し、構造化インシデント検出、分類、修復をサポートする。
我々は、このフレームワークをIBM CUGAに適用し、AppWorldとWebArenaベンチマークのパフォーマンスを評価した。
論文 参考訳(メタデータ) (2026-02-18T14:55:35Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。
我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。
実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - VERA: Validation and Evaluation of Retrieval-Augmented Systems [5.709401805125129]
VERAは、大規模言語モデル(LLM)からの出力の透明性と信頼性を高めるために設計されたフレームワークである。
VERAが意思決定プロセスを強化し、AIアプリケーションへの信頼を高める方法を示す。
論文 参考訳(メタデータ) (2024-08-16T21:59:59Z) - BELLS: A Framework Towards Future Proof Benchmarks for the Evaluation of LLM Safeguards [43.86118338226387]
LLMセーフガード評価ベンチマーク(BELLS)について紹介する。
BELLSは構造化されたテストのコレクションで、確立された障害テスト、新しい障害テスト、次世代アーキテクチャテストの3つのカテゴリに分けられる。
私たちは、データセットのインタラクティブな可視化とともに、MACHIAVELLI環境を使用して、最初の次世代アーキテクチャテストを実装し、共有します。
論文 参考訳(メタデータ) (2024-06-03T14:32:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。