論文の概要: Structural Quality Gaps in Practitioner AI Governance Prompts: An Empirical Study Using a Five-Principle Evaluation Framework
- arxiv url: http://arxiv.org/abs/2604.21090v1
- Date: Wed, 22 Apr 2026 21:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.179035
- Title: Structural Quality Gaps in Practitioner AI Governance Prompts: An Empirical Study Using a Five-Principle Evaluation Framework
- Title(参考訳): 実践的AIガバナンスにおける構造的品質ギャップ:5原則評価フレームワークを用いた実証的研究
- Authors: Christo Zietsman,
- Abstract要約: 我々は、AIが構造的に完成しているかどうかを評価するためのフレームワークを導入する。
評価の結果,評価されたファイルモデルペアの37%がしきい値以下であることが判明した。
本稿では,AI支援開発における工学的要件の実践の意義について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI governance programmes increasingly rely on natural language prompts to constrain and direct AI agent behaviour. These prompts function as executable specifications: they define the agent's mandate, scope, and quality criteria. Despite this role, no systematic framework exists for evaluating whether a governance prompt is structurally complete. We introduce a five-principle evaluation framework grounded in computability theory, proof theory, and Bayesian epistemology, and apply it to an empirical corpus of 34 publicly available AGENTS.md governance files sourced from GitHub. Our evaluation reveals that 37% of evaluated file-model pairs score below the structural completeness threshold, with data classification and assessment rubric criteria most frequently absent. These results suggest that practitioner-authored governance prompts exhibit consistent structural patterns that automated static analysis could detect and remediate. We discuss implications for requirements engineering practice in AI-assisted development contexts, identify a previously undocumented artefact classification gap in the AGENTS.md convention, and propose directions for tool support.
- Abstract(参考訳): AIガバナンスプログラムは、自然言語のプロンプトにますます依存して、AIエージェントの動作を制約し、直接的に行うようになっている。
これらのプロンプトは実行可能な仕様として機能し、エージェントの委任、スコープ、品質基準を定義する。
この役割にもかかわらず、ガバナンスのプロンプトが構造的に完全かどうかを評価するための体系的なフレームワークは存在しない。
計算可能性理論,証明理論,ベイズ的認識論に基づく5つの基本的評価フレームワークを導入し,GitHubから公開されているAgentS.mdガバナンスファイル34の実証的なコーパスに適用する。
評価の結果, 評価されたファイルモデルペアの37%が構造的完全性閾値以下であり, データ分類と評価のルーリック基準が欠落していることが判明した。
これらの結果は、自動化された静的分析が検出および修正できる一貫した構造パターンを実践者が承認したガバナンスプロンプトが示すことを示唆している。
本稿では,AI支援開発における要件工学の実践の意味を論じ,AgentS.mdコンベンションにおける未文書のアーティファクト分類のギャップを特定するとともに,ツールサポートの方向性を提案する。
関連論文リスト
- Measuring the Machine: Evaluating Generative AI as Pluralist Sociotechical Systems [0.0]
この論文は、生成的AIは複数の社会技術システムとして評価されなければならないと主張している。
MaSH Loopsは、モデル、ユーザ、組織が意味と価値を共構築する方法をトレースするフレームワークである。
World Values Benchmarkは、World Values Surveyのデータに基づく分散アプローチを導入している。
論文 参考訳(メタデータ) (2026-04-22T13:29:33Z) - Governed Reasoning for Institutional AI [0.0]
認知コア(Cognitive Core)は、9種類の認知プリミティブから構築された決定基盤である。
ヒューマンレビューは、ポストホックチェックではなく実行条件である。
我々は、11ケースの事前承認控訴評価セットで3つのシステムをベンチマークした。
論文 参考訳(メタデータ) (2026-04-12T14:09:18Z) - Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces [0.0]
Agent Execution Record (AER) は構造化された推論プリミティブであり、すべてのステップで第一級クエリ可能なフィールドとしてインテント、観察、推論をキャプチャする。
AERが集団レベルの行動分析を可能にする方法を示す: 推論パターンマイニング、信頼度校正、クロスエージェント比較、モックリプレイによる反事実回帰テスト。
論文 参考訳(メタデータ) (2026-03-23T08:27:54Z) - Explainability and Certification of AI-Generated Educational Assessments [0.0]
この章では、AI生成アセスメント項目の説明可能性と認定のための包括的なフレームワークを提案する。
保証、アライメント予測、レビューアアクション、倫理指標をキャプチャするために、構造化された認証メタデータスキーマが導入される。
500のAI生成コンピュータサイエンス問題に関する概念実証研究は、このフレームワークの実現可能性を示している。
論文 参考訳(メタデータ) (2026-03-18T11:33:58Z) - Computable Gap Assessment of Artificial Intelligence Governance in Children's Centres: Evidence-Mechanism-Governance-Indicator Modelling of UNICEF's Guidance on AI and Children 3.0 Based on the Graph-GAP Framework [5.260137087369841]
本稿では,権威政策文書からエビデンス,メカニズム,ガバナンス,インジケータの4層グラフに要件を分解する手法を提案する。
UNICEF Innocenti Guidance on AIとChildren 3.0を主要な素材として、再現可能な抽出単位、コーディングマニュアル、グラフパターン、スコアリング尺度、一貫性チェックを定義する。
その結果, プライバシやデータ保護と比較して, 子どもの健康と発達, 説明可能性, 説明可能性, 説明可能性, 資源配分といった要件が, ギャップやメカニズムギャップの指標となる傾向が示唆された。
論文 参考訳(メタデータ) (2025-12-20T17:03:17Z) - BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。
提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T06:39:19Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [51.26815896167173]
本稿では,3つの相補的な側面からPAMIレビューを総合的に分析する。
我々の分析は、現在のレビューの実践において、独特の組織パターンと永続的なギャップを明らかにします。
最後に、最先端のAI生成レビューの評価は、コヒーレンスと組織の進歩を奨励していることを示している。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。