論文の概要: One-Eval: An Agentic System for Automated and Traceable LLM Evaluation
- arxiv url: http://arxiv.org/abs/2603.09821v1
- Date: Tue, 10 Mar 2026 15:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.435221
- Title: One-Eval: An Agentic System for Automated and Traceable LLM Evaluation
- Title(参考訳): One-Eval: 自動かつトレーサブルなLCM評価のためのエージェントシステム
- Authors: Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang,
- Abstract要約: One-Evalは、自然言語要求を実行可能な評価に変換するエージェント評価システムである。
One-Evalは、産業環境でより効率的で再現可能な評価をサポートする。
- 参考スコア(独自算出の注目度): 10.701916838477187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable evaluation is essential for developing and deploying large language models, yet in practice it often requires substantial manual effort: practitioners must identify appropriate benchmarks, reproduce heterogeneous evaluation codebases, configure dataset schema mappings, and interpret aggregated metrics. To address these challenges, we present One-Eval, an agentic evaluation system that converts natural-language evaluation requests into executable, traceable, and customizable evaluation workflows. One-Eval integrates (i) NL2Bench for intent structuring and personalized benchmark planning, (ii) BenchResolve for benchmark resolution, automatic dataset acquisition, and schema normalization to ensure executability, and (iii) Metrics \& Reporting for task-aware metric selection and decision-oriented reporting beyond scalar scores. The system further incorporates human-in-the-loop checkpoints for review, editing, and rollback, while preserving sample evidence trails for debugging and auditability. Experiments show that One-Eval can execute end-to-end evaluations from diverse natural-language requests with minimal user effort, supporting more efficient and reproducible evaluation in industrial settings. Our framework is publicly available at https://github.com/OpenDCAI/One-Eval.
- Abstract(参考訳): 信頼性の高い評価は、大規模な言語モデルの開発とデプロイに不可欠だが、実践者は適切なベンチマークを特定し、不均一な評価コードベースを再現し、データセットのスキーママッピングを設定し、集約されたメトリクスを解釈する必要がある。
これらの課題に対処するために,自然言語評価要求を実行可能なトレーサビリティ,カスタマイズ可能な評価ワークフローに変換するエージェント評価システムOne-Evalを提案する。
One-Eval 統合
(i)意図的構造化とパーソナライズされたベンチマーク計画のためのNL2Bench
(ii)ベンチマーク解決、自動データセット取得、実行可能性を保証するためのスキーマ正規化のためのBenchResolve
三 課題対応計量選択のためのメトリクス \&レポーティング及びスカラースコアを超える意思決定報告
システムはさらに、レビュー、編集、ロールバックのための、ループ内人間チェックポイントと、デバッグと監査性のためのサンプルエビデンスを保存している。
実験によると、One-Evalは、さまざまな自然言語リクエストからエンド・ツー・エンドの評価を、最小限のユーザ労力で実行でき、産業環境でより効率的で再現可能な評価をサポートする。
私たちのフレームワークはhttps://github.com/OpenDCAI/One-Eval.comで公開されています。
関連論文リスト
- DEP: A Decentralized Large Language Model Evaluation Protocol [51.3646001384887]
分散評価プロトコル(Decentralized Evaluation Protocol, DEP)は、分散化されているが統一され、標準化された評価フレームワークである。
ユーザ、LLM、ベンチマークを分離することで、DEPはモジュラー、プラグ・アンド・プレイの評価を可能にする。
我々は,ブレークポイントの再開,同時要求,混雑制御などの機能をサポートするプロトコル互換ツールキットであるDEP Toolkitを開発した。
論文 参考訳(メタデータ) (2026-03-01T16:10:16Z) - OutboundEval: A Dual-Dimensional Benchmark for Expert-Level Intelligent Outbound Evaluation of Xbench's Professional-Aligned Series [36.88936933010042]
OutboundEvalは、インテリジェントなアウトバウンドコールシナリオにおいて、大きな言語モデル(LLM)を評価するための包括的なベンチマークである。
6つの主要なビジネスドメインと30の代表的なサブシナリオにまたがるベンチマークを設計します。
本稿では,タスク実行の正確性,専門知識の適用性,適応性,ユーザエクスペリエンスの質を評価するために,タスクのバリエーションに適応する動的評価手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T08:27:58Z) - DOCUEVAL: An LLM-based AI Engineering Tool for Building Customisable Document Evaluation Workflows [14.403156040714817]
我々は、カスタマイズ可能な評価器を構築するためのAIエンジニアリングツールであるDOCUEVALを紹介する。
DOCUEVALが評価器の工学とスケーラブルで信頼性の高い文書評価の両方を実現する方法を示す。
論文 参考訳(メタデータ) (2025-09-12T08:09:09Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Adapting Vision-Language Models for Evaluating World Models [24.813041196394582]
データおよび計算制約下でのシミュレーション環境におけるロールアウトに対する視覚言語評価手法であるUNIVERSEを提案する。
本研究では,タスク形式,コンテキスト長,サンプリング戦略,データ構成を網羅した,完全,部分的,パラメータ効率の微調整を大規模に検討する。
その結果得られた統合評価器は、単一のチェックポイントを使用してタスク固有のベースラインのパフォーマンスにマッチする。
論文 参考訳(メタデータ) (2025-06-22T09:53:28Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - How to Evaluate Entity Resolution Systems: An Entity-Centric Framework with Application to Inventor Name Disambiguation [1.7812428873698403]
本稿では,要約統計をモニタリングする統合フレームワークと統合したエンティティ中心のデータラベリング手法を提案する。
これらのベンチマークデータセットは、モデルトレーニングやさまざまな評価タスクに使用できる。
論文 参考訳(メタデータ) (2024-04-08T15:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。