論文の概要: AI Agents-as-Judge: Automated Assessment of Accuracy, Consistency, Completeness and Clarity for Enterprise Documents
- arxiv url: http://arxiv.org/abs/2506.22485v1
- Date: Mon, 23 Jun 2025 17:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.406547
- Title: AI Agents-as-Judge: Automated Assessment of Accuracy, Consistency, Completeness and Clarity for Enterprise Documents
- Title(参考訳): AIエージェント・アズ・ジャッジ:企業文書の正確性、一貫性、完全性、明確性の自動評価
- Authors: Sudip Dasgupta, Himanshu Shankar,
- Abstract要約: 本研究では,AIエージェントを用いた高度に構造化された企業文書の自動レビューのためのモジュール型マルチエージェントシステムを提案する。
LangChain、CrewAI、TruLens、Guidanceといった現代的なオーケストレーションツールを使用して、文書のセクション単位での評価を可能にする。
99%の情報一貫性(人間の場合は92%)を実現し、エラーとバイアス率を半減させ、1文書あたりの平均レビュー時間を30分から2.5分に短縮する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a modular, multi-agent system for the automated review of highly structured enterprise business documents using AI agents. Unlike prior solutions focused on unstructured texts or limited compliance checks, this framework leverages modern orchestration tools such as LangChain, CrewAI, TruLens, and Guidance to enable section-by-section evaluation of documents for accuracy, consistency, completeness, and clarity. Specialized agents, each responsible for discrete review criteria such as template compliance or factual correctness, operate in parallel or sequence as required. Evaluation outputs are enforced to a standardized, machine-readable schema, supporting downstream analytics and auditability. Continuous monitoring and a feedback loop with human reviewers allow for iterative system improvement and bias mitigation. Quantitative evaluation demonstrates that the AI Agent-as-Judge system approaches or exceeds human performance in key areas: achieving 99% information consistency (vs. 92% for humans), halving error and bias rates, and reducing average review time from 30 to 2.5 minutes per document, with a 95% agreement rate between AI and expert human judgment. While promising for a wide range of industries, the study also discusses current limitations, including the need for human oversight in highly specialized domains and the operational cost of large-scale LLM usage. The proposed system serves as a flexible, auditable, and scalable foundation for AI-driven document quality assurance in the enterprise context.
- Abstract(参考訳): 本研究では,AIエージェントを用いた高度に構造化された企業文書の自動レビューのためのモジュール型マルチエージェントシステムを提案する。
構造化されていないテキストや限定されたコンプライアンスチェックに焦点を当てた以前のソリューションとは異なり、このフレームワークはLangChain、CrewAI、TruLens、Guidanceといった現代的なオーケストレーションツールを活用して、正確性、一貫性、完全性、明確性のための文書のセクション単位での評価を可能にする。
テンプレートコンプライアンスや事実的正当性といった個別のレビュー基準に責任を負う専門エージェントは、必要に応じて並列またはシーケンスで運用する。
評価出力は標準化されたマシン可読スキーマに強制され、下流の分析と監査性をサポートする。
継続的監視と人間レビュアーによるフィードバックループは、反復的なシステム改善とバイアス軽減を可能にする。
AIエージェント・アズ・ジャッジ(Agen-as-Judge)システムは、重要な領域において、99%の情報一貫性(vs.92%が人間)を達成すること、エラーとバイアス率を半減すること、平均レビュー時間を1文書あたり30分から2.5分に短縮すること、そしてAIと専門家の人間の判断の間で95%の合意率で、人間のパフォーマンスに近づいたか、あるいは上回ったことを定量的評価が示している。
この研究は、幅広い産業に期待する一方で、高度に専門化されたドメインにおける人間の監視の必要性や、大規模LLMの使用の運用コストなど、現在の制限についても論じている。
提案システムは,企業コンテキストにおけるAI駆動型文書品質保証の柔軟性,監査性,スケーラブルな基盤として機能する。
関連論文リスト
- Constrained Process Maps for Multi-Agent Generative AI Workflows [10.871587311621974]
大規模言語モデル(LLM)ベースのエージェントは、コンプライアンスやデューディリジェンスといった規制された設定において、ますます使われている。
有限水平マルコフ決定過程 (MDP) として定式化された多エージェントシステムを導入する。
モンテカルロ推定(英語版)を用いて、疫学的不確実性はエージェントレベルで定量化され、システムレベルの不確実性は、自動ラベル付き状態またはヒトレビュー状態のいずれかで、MDPの終了によって捉えられる。
論文 参考訳(メタデータ) (2026-02-02T12:32:11Z) - Agentic AI for Commercial Insurance Underwriting with Adversarial Self-Critique [0.0]
本研究は, 対向的自己批判機構を組み込んだ意思決定陰性, ループ内エージェントシステムを提案する。
このシステム内では、批評家エージェントが、人間レビュアーに勧告を提出する前に、主エージェントの結論に異議を唱える。
この研究は、決定陰性エージェントによる潜在的なエラーを特徴付けるために、障害モードの正式な分類法を開発する。
論文 参考訳(メタデータ) (2026-01-21T05:51:27Z) - AEMA: Verifiable Evaluation Framework for Trustworthy and Controlled Agentic LLM Systems [0.28055179094637683]
AEMAは、人間の監視下で異種エージェントの多段階評価を計画し、実行し、集約する。
1つのLCM-as-a-Judgeと比較すると、AEMAはより安定性、人間のアライメント、そして説明責任のある自動化をサポートするトレース可能なレコードを実現している。
論文 参考訳(メタデータ) (2026-01-17T04:09:02Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - Continuous Benchmark Generation for Evaluating Enterprise-scale LLM Agents [23.277131100190086]
本稿では,要求の変化に応じてベンチマークを進化させ,進化するAIエージェントの堅牢な評価を行うベンチマーク生成プロセスを提案する。
このアプローチは、開発者が高レベルのインテントを表現し、最先端のLCMを使用して、ごく少数の文書からベンチマークを生成する半構造化ドキュメントに依存している。
論文 参考訳(メタデータ) (2025-11-13T07:48:22Z) - Towards Robust Fact-Checking: A Multi-Agent System with Advanced Evidence Retrieval [1.515687944002438]
デジタル時代における誤報の急速な拡散は、世論に重大な課題をもたらす。
従来の人間主導のファクトチェック手法は信頼できるが、オンラインコンテンツの量と速度に苦慮している。
本稿では, 精度, 効率, 説明性を向上する自動ファクトチェックのための新しいマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-06-22T02:39:27Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。
この手法は2003年にTREC Question Answering (QA) Trackのために開発された。
完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文 参考訳(メタデータ) (2025-04-21T12:55:06Z) - Completing A Systematic Review in Hours instead of Months with Interactive AI Agents [21.934330935124866]
我々は、大規模な言語モデルを利用した人間中心の対話型AIエージェントInsightAgentを紹介する。
InsightAgentは意味論に基づく大規模な文献コーパスを分割し、より焦点を絞った処理にマルチエージェント設計を採用する。
9人の医療専門家によるユーザスタディでは、可視化と相互作用機構が合成SRの品質を効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-04-21T02:57:23Z) - VeriLA: A Human-Centered Evaluation Framework for Interpretable Verification of LLM Agent Failures [3.075266204492352]
複合AIシステムにおける大規模言語モデル(LLM)エージェントは、しばしば人間の基準を満たさないため、システム全体のパフォーマンスを損なうエラーにつながる。
本稿では LLM Agent failures (VeriLA) を検証するための人間中心評価フレームワークを提案する。
VeriLAは、人的労力を減らすためにエージェント障害を体系的に評価し、これらのエージェント障害を人間に解釈できるようにする。
論文 参考訳(メタデータ) (2025-03-16T21:11:18Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Auto-PRE: An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [52.76508734756661]
Auto-PREはピアレビュープロセスにインスパイアされた自動評価フレームワークである。
人間のアノテーションに依存する従来のアプローチとは異なり、Auto-PREは自動的に3つのコア特性に基づいて評価子を選択する。
要約,非ファクトイドQA,対話生成を含む3つの代表的なタスクの実験は,Auto-PREが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Multisource AI Scorecard Table for System Evaluation [3.74397577716445]
本稿では、AI/機械学習(ML)システムの開発者およびユーザに対して標準チェックリストを提供するマルチソースAIスコアカードテーブル(MAST)について述べる。
本稿では,インテリジェンス・コミュニティ・ディレクティブ(ICD)203で概説されている分析的トレードクラフト標準が,AIシステムの性能を評価するためのフレームワークを提供する方法について考察する。
論文 参考訳(メタデータ) (2021-02-08T03:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。