論文の概要: Iterative Audit Convergence in LLM-Managed Multi-Agent Systems: A Case Study in Prompt Engineering Quality Assurance
- arxiv url: http://arxiv.org/abs/2605.12280v1
- Date: Tue, 12 May 2026 15:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.9748
- Title: Iterative Audit Convergence in LLM-Managed Multi-Agent Systems: A Case Study in Prompt Engineering Quality Assurance
- Title(参考訳): LLM-Managed Multi-Agent Systemsにおける反復的聴覚収束:プロンプト工学的品質保証を事例として
- Authors: Elias Calboreanu,
- Abstract要約: AEGISに適用されたエージェント駆動型監査の単一システム事例研究を報告する。
本報告では, 明示的な符号規則, 非単調な収束, 監査スコープの拡がりを含む7カテゴリーの欠陥分類を報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt specifications for multi-agent large language model (LLM) systems carry data contracts and integration logic across many interdependent files but are rarely subjected to structured-inspection rigor. This paper reports a single-system empirical case study of iterative, agent-driven auditing applied to AEGIS (Autonomous Engineering Governance and Intelligence System), a production seven-lane orchestration pipeline whose prompt-specification surface comprises approximately 7150 lines: 6907 across seven lane PROMPT.md files and a 245-line shared Ticket Contract. Nine sequential audit rounds, executed by Claude sub-agents using a checklist-driven walkthrough adapted from Weinberg and Freedman, surfaced 51 prompt-specification consistency defects, distinct from the 51 STRIDE-categorized adversarial code findings reported in the companion preprint. Per-round counts were 15, 8, 12, 2, 8, 1, 4, 1, and 0. We report a seven-category post-hoc defect taxonomy with explicit coding rules, observed non-monotonic convergence consistent with cascading edits and audit-scope expansion, and an audit protocol distilled from the study, with the final locked checklist released as a reproducibility appendix. Single-file review missed defect classes that were surfaced only by later expanded-scope rounds in this system. The same LLM family authored and audited the specifications; replication with dissimilar models and human reviewers is required before generalization.
- Abstract(参考訳): マルチエージェント大規模言語モデル(LLM)システムのプロンプト仕様は、多くの相互依存ファイルにデータコントラクトと統合ロジックを格納するが、構造化インスペクションの厳密さに悩まされることは滅多にない。
本稿では, AEGIS (Autonomous Engineering Governance and Intelligence System) に適用された反復型エージェント駆動型監査の単一システム事例研究を報告する。
Weinberg と Freedman が適応したチェックリスト駆動のウォークスルーを用いてClaude サブエージェントにより9回連続的な監査ラウンドを行い,51 STRIDE 分類の逆行性コード所見と異なる51 のプロンプト特異的整合性欠陥を表面化した。
1ラウンド当たりのカウントは15, 8, 12, 2, 8, 1, 1, 1, 1, 0。
本報告では, 明示的な符号化規則, カスケード編集, 監査スコープ拡張と整合した非モノトニック収束, および再現性付録として最終ロックチェックリストを公開し, 調査から抽出した監査プロトコルについて報告する。
単一ファイルレビューでは、このシステムの後の拡張スコープラウンドによってのみ浮上した欠陥クラスが見逃された。
同じLLMファミリーが仕様を作成、監査し、異なるモデルと人間レビュアーによる複製は、一般化の前に必要である。
関連論文リスト
- Towards Multi-Agent Autonomous Reasoning in Hydrodynamics [0.06999740786886537]
本稿では,多エージェントをレイヤ実行グラフ(LEG)を介して協調させる,流体力学のためのマルチエージェントシステム(MAS)のプロトタイプを提案する。
プランナーエージェントは、ドメイン知識を厳密な制御ロジックとしてハードコーディングすることなく、自然言語ルーティングからクエリ固有の実行トポロジを構築する。
レポーターエージェントが最終応答を合成し、ランタイムが監査性をサポートするためのツール呼び出し毎に証明をログする。
論文 参考訳(メタデータ) (2026-05-01T21:17:55Z) - Breaking the Illusion of Identity in LLM Tooling [0.0]
既存の緩和策は、システマティックにデプロイ可能な制約セット出力レジスタを提供していません。
本稿では,文書化された言語機構を対象とする7つのアウトプットサイドルールを提案する。
論文 参考訳(メタデータ) (2026-04-08T09:15:14Z) - LLM-based Schema-Guided Extraction and Validation of Missing-Person Intelligence from Heterogeneous Data Sources [0.7734726150561088]
行方不明者や子どもの安全に関する調査は、構造化フォーム、掲示板スタイルのポスター、物語ウェブプロファイルなど、異種ケース文書に依存している。
レイアウト、用語、データ品質の変化は、急激なトリアージ、大規模分析、探索計画を妨げる。
本稿では、AIによる解析および正規化パイプラインであるGuardian Packを紹介し、マルチソース調査文書を統一されたスキーマ準拠の表現に変換する。
論文 参考訳(メタデータ) (2026-04-08T01:35:56Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Arbiter: Detecting Interference in LLM Agent System Prompts [0.0]
Arbiterは、システムプロンプト内の干渉パターンを検出するために、形式的評価ルールとマルチモデルLCMスカーリングを組み合わせたフレームワークである。
Claude Code (Anthropic), Codex CLI (OpenAI), Gemini CLI (Google)の3つの主要なコーディングエージェントシステムに適用される。
論文 参考訳(メタデータ) (2026-03-09T22:29:47Z) - SPECA: Specification-to-Checklist Agentic Auditing for Multi-Implementation Systems -- A Case Study on Ethereum Clients [1.711666249985278]
SPECAは、標準要件をチェックリストに変換する仕様からChecklistフレームワークである。
SPECAは,11社を対象とし,フサカアップグレードのセキュリティ監査コンテストの会場内でインスタンス化を行う。
我々の改善されたエージェントは、競争監査の基礎的真実に対して評価され、高影響の脆弱性について27.3%の厳格なリコールを達成した。
論文 参考訳(メタデータ) (2026-02-07T12:19:00Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。