論文の概要: DOCUEVAL: An LLM-based AI Engineering Tool for Building Customisable Document Evaluation Workflows
- arxiv url: http://arxiv.org/abs/2511.05496v1
- Date: Fri, 12 Sep 2025 08:09:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.143635
- Title: DOCUEVAL: An LLM-based AI Engineering Tool for Building Customisable Document Evaluation Workflows
- Title(参考訳): DOCUEVAL: カスタマイズ可能なドキュメント評価ワークフローを構築するためのLLMベースのAIエンジニアリングツール
- Authors: Hao Zhang, Qinghua Lu, Liming Zhu,
- Abstract要約: 我々は、カスタマイズ可能な評価器を構築するためのAIエンジニアリングツールであるDOCUEVALを紹介する。
DOCUEVALが評価器の工学とスケーラブルで信頼性の高い文書評価の両方を実現する方法を示す。
- 参考スコア(独自算出の注目度): 14.403156040714817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models, such as large language models (LLMs), have the potential to streamline evaluation workflows and improve their performance. However, practical adoption faces challenges, such as customisability, accuracy, and scalability. In this paper, we present DOCUEVAL, an AI engineering tool for building customisable DOCUment EVALuation workflows. DOCUEVAL supports advanced document processing and customisable workflow design which allow users to define theory-grounded reviewer roles, specify evaluation criteria, experiment with different reasoning strategies and choose the assessment style. To ensure traceability, DOCUEVAL provides comprehensive logging of every run, along with source attribution and configuration management, allowing systematic comparison of results across alternative setups. By integrating these capabilities, DOCUEVAL directly addresses core software engineering challenges, including how to determine whether evaluators are "good enough" for deployment and how to empirically compare different evaluation strategies. We demonstrate the usefulness of DOCUEVAL through a real-world academic peer review case, showing how DOCUEVAL enables both the engineering of evaluators and scalable, reliable document evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)のような基礎モデルでは、評価ワークフローを合理化し、パフォーマンスを向上させる可能性がある。
しかしながら、カスタマイズ性、正確性、スケーラビリティなど、現実的な採用は課題に直面している。
本稿では、カスタマイズ可能なDOCUment EVALuationワークフローを構築するためのAIエンジニアリングツールであるDOCUEVALを提案する。
DOCUEVALは高度なドキュメント処理とカスタマイズ可能なワークフロー設計をサポートしており、ユーザーは理論に基づくレビュアーの役割を定義し、評価基準を指定し、異なる推論戦略を試し、評価スタイルを選択することができる。
トレーサビリティを確保するため、DOCUEVALはソース属性と設定管理とともに、すべての実行時の包括的なログを提供する。
これらの機能を統合することで、DOCUEVALは、デプロイに対して評価者が“十分な”かどうかを判断する方法や、異なる評価戦略を経験的に比較する方法など、ソフトウェアエンジニアリングのコア課題に直接対処する。
本研究では,実際の学術的ピアレビューケースを通じて,ドキュエバルの有効性を実証し,ドキュエバルが評価器の工学とスケーラブルで信頼性の高い文書評価の両方を実現する方法を示した。
関連論文リスト
- Eval Factsheets: A Structured Framework for Documenting AI Evaluations [18.275882528334794]
我々は,AIシステム評価を文書化するためのフレームワークであるEval Factsheetsを紹介する。
本フレームワークは,5つの基本次元にまたがって評価特性を整理する。
Eval Factsheetsは様々な評価パラダイムを効果的に捉えていることを示す。
論文 参考訳(メタデータ) (2025-12-03T18:46:50Z) - MedDCR: Learning to Design Agentic Workflows for Medical Coding [55.51674334874892]
医療符号化は、フリーテキスト臨床ノートを標準化された診断および手続きコードに変換する。
本稿では,設計を学習問題として扱うクローズドループフレームワークであるMedDCRを提案する。
ベンチマークデータセットでは、MedDCRは最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-11-17T13:30:51Z) - Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents [71.85020581835042]
大規模言語モデルベースのエージェントは、ソフトウェアエンジニアリングの約束を示すが、環境構成はボトルネックのままである。
既存のベンチマークでは、エンドツーエンドのビルド/テストの成功のみを評価し、エージェントが成功または失敗する場所と理由を見極めている。
本研究では,環境設定計画中の細粒度エージェントのプロセスレベルの軌道評価を行うEnconda-benchを紹介する。
論文 参考訳(メタデータ) (2025-10-29T16:59:07Z) - OutboundEval: A Dual-Dimensional Benchmark for Expert-Level Intelligent Outbound Evaluation of Xbench's Professional-Aligned Series [36.88936933010042]
OutboundEvalは、インテリジェントなアウトバウンドコールシナリオにおいて、大きな言語モデル(LLM)を評価するための包括的なベンチマークである。
6つの主要なビジネスドメインと30の代表的なサブシナリオにまたがるベンチマークを設計します。
本稿では,タスク実行の正確性,専門知識の適用性,適応性,ユーザエクスペリエンスの質を評価するために,タスクのバリエーションに適応する動的評価手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T08:27:58Z) - When Models Can't Follow: Testing Instruction Adherence Across 256 LLMs [0.0]
本稿では,20個のプロンプトを慎重に設計し,指示追従の評価を行う合理化評価フレームワークを提案する。
我々は2025年10月14日に行われた大規模な実証的研究を通じて、この枠組みを実証した。
本研究は、一貫した障害モードを明らかにし、特定の課題を呈する特定の命令タイプを特定する。
論文 参考訳(メタデータ) (2025-10-18T16:33:15Z) - EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。
標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。
EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Structure-Aware Corpus Construction and User-Perception-Aligned Metrics for Large-Language-Model Code Completion [5.771285831097908]
本稿では,コード補完タスクの2つの評価指標,-LCP と ROUGE-LCP を提案する。
また,構造保存および意味的順序付きコードグラフに基づくデータ処理手法を提案する。
論文 参考訳(メタデータ) (2025-05-19T13:09:32Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。
このフレームワークは、評価の推測と報告のための体系的な構造を提供する。
我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文 参考訳(メタデータ) (2024-06-14T18:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。