論文の概要: PRISM: Prompt Reliability via Iterative Simulation and Monitoring for Enterprise Conversational AI
- arxiv url: http://arxiv.org/abs/2605.15665v1
- Date: Fri, 15 May 2026 06:43:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.194418
- Title: PRISM: Prompt Reliability via Iterative Simulation and Monitoring for Enterprise Conversational AI
- Title(参考訳): PRISM: エンタープライズ会話型AIの反復シミュレーションとモニタリングによる信頼性向上
- Authors: Keshava Chaitanya, Jahnavi Gundakaram,
- Abstract要約: PRISM(Prompt Reliability via Iterative Simulation and Monitoring)は、継続的信頼性エンジニアリング問題として迅速なエンジニアリングを扱うクローズドループフレームワークである。
我々は,Yellow.ai V3プラットフォーム上での3週間の展開期間において,35件の企業会話エージェントを対象としたPRISMを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Deploying large language model (LLM)-driven conversational agents in enterprise settings requires prompts that are simultaneously correct at launch and resilient to the non-deterministic behavioral drift that characterizes production LLM deployments. Existing prompt optimization frameworks address prompt quality as a one-time compile-time problem, leaving open the equally critical question of how to detect and repair prompt regressions caused by silent LLM behavior changes over time. We present PRISM (Prompt Reliability via Iterative Simulation and Monitoring), a closed-loop framework that treats prompt engineering as a continuous reliability engineering problem rather than a one-time authorship task. PRISM takes as input plain-language agent requirements, a set of configured tools and memory variables, and an initial draft prompt. It automatically generates test cases from requirements, simulates full multi-turn conversations against a platform-faithful LLM environment, evaluates pass/fail using an LLM-as-judge, diagnoses root causes of failures, and surgically repairs the prompt -- iterating until all tests pass. Critically, PRISM is designed to run on a scheduled basis (daily), treating LLM behavioral drift as a first-class reliability concern. We evaluate PRISM across 35 enterprise conversational agents over a three-week deployment period on the Yellow.ai V3 platform. PRISM reduces median prompt authoring time from 2 days to under 30 minutes, achieves 99% production reliability across all evaluated agents, and successfully identifies and repairs production regressions caused by LLM behavioral drift within a 24-hour detection window. Our results suggest that continuous, simulation-driven prompt optimization is both tractable and necessary for reliable enterprise conversational AI at scale.
- Abstract(参考訳): エンタープライズ環境での大規模言語モデル(LLM)駆動の会話エージェントのデプロイには、起動時に同時に正しいプロンプトと、本番LLMデプロイメントを特徴付ける非決定論的行動ドリフトに対するレジリエントなプロンプトが必要である。
既存のプロンプト最適化フレームワークは、プロンプト品質を1回コンパイル時の問題として扱い、サイレントLLMの動作変化によるプロンプト回帰の検出と修復について、同様に重要な質問を時間とともに開いている。
PRISM(Prompt Reliability via Iterative Simulation and Monitoring)は,ワンタイムのオーサシップタスクではなく,迅速なエンジニアリングを継続的信頼性エンジニアリング問題として扱うクローズドループフレームワークである。
PRISMは入力プレーン言語エージェント要件、設定されたツールとメモリ変数のセット、および初期ドラフトプロンプトである。
要件からテストケースを自動的に生成し、プラットフォームに忠実なLDM環境に対する完全なマルチターン会話をシミュレートし、LSM-as-judgeを使用してパス/フェイルを評価し、障害の根本原因を診断し、すべてのテストが通過するまでプロンプトを外科的に修復する。
批判的には、PRISMは(日々)スケジュール通りに動作するよう設計されており、LCMの振る舞いのドリフトを第一級信頼性の懸念事項として扱う。
我々は,Yellow.ai V3プラットフォーム上での3週間の展開期間において,35件の企業会話エージェントを対象としたPRISMを評価した。
PRISMは2日以内から30分以内のプロンプトオーサリング時間を減らし、すべての評価エージェントに対して99%の信頼性を実現し、24時間検出ウィンドウ内でのLLMの挙動ドリフトによる生産遅延の特定と修復に成功している。
この結果から,大規模で信頼性の高い企業会話型AIを実現するためには,連続的かつシミュレーション駆動型のプロンプト最適化が不可欠であることが示唆された。
関連論文リスト
- Toward Autonomous SOC Operations: End-to-End LLM Framework for Threat Detection, Query Generation, and Resolution in Security Operations [1.7102338932907293]
セキュリティ・オペレーション・センター(SOC)は運用上の課題に直面している。
これらの課題は、脅威量の増加、異種SIEMプラットフォーム、時間を要する手作業によるトリアージなどである。
本稿では,アンサンブルに基づく検出,構文制約付きクエリ生成,検索強化型解決支援を統合したエンドツーエンドの脅威管理フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-30T02:06:46Z) - Runtime Execution Traces Guided Automated Program Repair with Multi-Agent Debate [8.424102114588559]
自動プログラム修復(APR)は複雑なロジックエラーとサイレント障害に悩まされる。
現在のLLMベースのAPRメソッドは主に静的であり、ソースコードと基本的なテスト出力に依存している。
我々は、パッチ検証のための共有制約としてランタイム事実を活用するマルチエージェントフレームワークであるTraceRepairを提案する。
論文 参考訳(メタデータ) (2026-04-03T02:23:25Z) - Multi-Agent LLM Orchestration Achieves Deterministic, High-Quality Decision Support for Incident Response [0.0]
大規模言語モデル(LLM)は、本番システムにおけるインシデント応答を加速することを約束する。
しかし、単一エージェントアプローチは曖昧で使用不能なレコメンデーションを生成する。
コンテナ化されたフレームワークであるMyAntFarm.aiを紹介し、マルチエージェントオーケストレーションがインシデント応答の品質を変えることを示す。
論文 参考訳(メタデータ) (2025-11-19T06:06:11Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - On Simulation-Guided LLM-based Code Generation for Safe Autonomous Driving Software [0.577182115743694]
オートマチック・ドライビング・システム(Automated Driving System, ADS)は、車両の環境の解釈に責任を負う安全クリティカルなソフトウェアシステムである。
ADSの開発には厳格なプロセスが必要で、車両に配備する前にコードを検証し、検証し、評価し、検証する。
本研究では,自動コード生成と評価のためのプロトタイプを開発し,評価した。
論文 参考訳(メタデータ) (2025-04-02T21:35:11Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - SimulBench: Evaluating Language Models with Creative Simulation Tasks [20.233111652638637]
我々は,大規模言語モデル(LLM)を評価するためのベンチマークであるSimulBenchを紹介した。
大きな課題は、ユーザとAI間のシミュレーションタスクのマルチラウンドインタラクティブな性質を保ちながら、異なるLLMを公平にテストするための評価フレームワークを開発することである。
論文 参考訳(メタデータ) (2024-09-11T21:53:20Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。