論文の概要: Prompt Readiness Levels (PRL): a maturity scale and scoring framework for production grade prompt assets
- arxiv url: http://arxiv.org/abs/2603.15044v1
- Date: Mon, 16 Mar 2026 09:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.993062
- Title: Prompt Readiness Levels (PRL): a maturity scale and scoring framework for production grade prompt assets
- Title(参考訳): Prompt Readiness Levels (PRL:Prompt Readiness Levels) 生産段階の即時資産のための成熟度尺度と採点フレームワーク
- Authors: Sebastien Guinard,
- Abstract要約: 本稿では、TRLにインスパイアされた9レベル成熟度尺度であるPrompt Readiness Levels(PRL)と、弱いリンク障害モードを防止するためのゲーティングしきい値を持つ多次元スコア法Prompt Readiness Score(PRS)を紹介する。
PRL/PRSは、プロンプト資産の仕様、テスト、トレーサビリティ、セキュリティ評価、デプロイメントの準備を規定する、オリジナルで構造化された方法論のフレームワークを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt engineering has become a production critical component of generative AI systems. However, organizations still lack a shared, auditable method to qualify prompt assets against operational objectives, safety constraints, and compliance requirements. This paper introduces Prompt Readiness Levels (PRL), a nine level maturity scale inspired by TRL, and the Prompt Readiness Score (PRS), a multidimensional scoring method with gating thresholds designed to prevent weak link failure modes. PRL/PRS provide an original, structured and methodological framework for governing prompt assets specification, testing, traceability, security evaluation, and deployment readiness enabling valuation of prompt engineering through reproducible qualification decisions across teams and industries.
- Abstract(参考訳): プロンプトエンジニアリングは、生成AIシステムの生産上重要なコンポーネントとなっている。
しかし、組織には、運用目標、安全制約、コンプライアンス要件に対する緊急資産の資格を付与する、共通の監査可能な方法がない。
本稿では、TRLにインスパイアされた9レベル成熟度尺度であるPrompt Readiness Levels(PRL)と、弱いリンク障害モードを防止するためのゲーティングしきい値を持つ多次元スコア法Prompt Readiness Score(PRS)を紹介する。
PRL/PRSは、チームや業界間で再現可能な資格決定を通じて、プロンプトエンジニアリングのバリュエーションを可能にする、プロンプトアセット仕様、テスト、トレーサビリティ、セキュリティ評価、デプロイメントの即応性を管理するための、オリジナルで構造化された方法論的なフレームワークを提供する。
関連論文リスト
- Decoding ML Decision: An Agentic Reasoning Framework for Large-Scale Ranking System [26.405948122941467]
本稿では、最適化を自律的な発見プロセスとして再編成するフレームワークであるGEARSを紹介する。
GEARSは、アルゴリズム信号と深いランク付けコンテキストを相乗化することにより、優れた、ほぼパレート効率のポリシーを一貫して識別する。
論文 参考訳(メタデータ) (2026-02-20T22:24:01Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - Chained Prompting for Better Systematic Review Search Strategies [0.6633201258809686]
本稿では,システムレビューにおいて,検索戦略の自動開発のための大規模言語モデルに基づく連鎖型プロンプトエンジニアリングフレームワークを提案する。
このフレームワークは、手動検索設計の手続き的構造を再現し、LLMを活用して、レビュー対象を分解し、PICO要素を抽出し、概念表現を生成し、用語を拡張し、クエリを合成する。
論文 参考訳(メタデータ) (2025-11-28T12:12:38Z) - BarrierBench : Evaluating Large Language Models for Safety Verification in Dynamical Systems [4.530582224312311]
バリア証明書合成のための LLM ベースのエージェントフレームワークを提案する。
このフレームワークは自然言語推論を使用して、候補証明書を提案し、洗練し、検証する。
BarrierBenchは、線形、非線形、離散時間、連続時間設定にまたがる100の動的システムのベンチマークである。
論文 参考訳(メタデータ) (2025-11-12T14:23:49Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - VerifyThisBench: Generating Code, Specifications, and Proofs All at Once [9.383313869205628]
本稿では,自然言語記述からエンドツーエンドのプログラム検証を評価する新しいベンチマークを提案する。
評価の結果,o3-miniのような最先端(SOTA)モデルでさえ,パスレートが4%未満であることが確認された。
論文 参考訳(メタデータ) (2025-05-25T19:00:52Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Auto-PRE: An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [52.76508734756661]
Auto-PREはピアレビュープロセスにインスパイアされた自動評価フレームワークである。
人間のアノテーションに依存する従来のアプローチとは異なり、Auto-PREは自動的に3つのコア特性に基づいて評価子を選択する。
要約,非ファクトイドQA,対話生成を含む3つの代表的なタスクの実験は,Auto-PREが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Engineering Safety Requirements for Autonomous Driving with Large Language Models [0.6699222582814232]
大きな言語モデル(LLM)は、更新毎に要求を自動的に精錬し、分解する上で重要な役割を果たす。
本研究では、アイテム定義を受信し、安全要件の形でソリューションを出力するプロンプトとLCMのパイプラインのプロトタイプを提案する。
論文 参考訳(メタデータ) (2024-03-24T20:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。