Fugu-MT 論文翻訳(概要): EvalSense: A Framework for Domain-Specific LLM (Meta-)Evaluation

論文の概要: EvalSense: A Framework for Domain-Specific LLM (Meta-)Evaluation

arxiv url: http://arxiv.org/abs/2602.18823v1
Date: Sat, 21 Feb 2026 12:50:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.334281
Title: EvalSense: A Framework for Domain-Specific LLM (Meta-)Evaluation
Title（参考訳）: EvalSense: ドメイン特化LDM(Meta-)評価フレームワーク
Authors: Adam Dejl, Jonathan Pearson,
Abstract要約: 大規模言語モデル(LLM)のためのドメイン固有評価スイートを構築するためのフレームワークであるEvalSenseを提案する。 EvalSenseは、幅広いモデルプロバイダと評価戦略に対して、最初からサポートを提供しています。 EvalSenseの有効性を,非構造的医師と患者との対話から臨床ノートを作成するケーススタディで実証した。
参考スコア（独自算出の注目度）: 1.9336815376402718
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Robust and comprehensive evaluation of large language models (LLMs) is essential for identifying effective LLM system configurations and mitigating risks associated with deploying LLMs in sensitive domains. However, traditional statistical metrics are poorly suited to open-ended generation tasks, leading to growing reliance on LLM-based evaluation methods. These methods, while often more flexible, introduce additional complexity: they depend on carefully chosen models, prompts, parameters, and evaluation strategies, making the evaluation process prone to misconfiguration and bias. In this work, we present EvalSense, a flexible, extensible framework for constructing domain-specific evaluation suites for LLMs. EvalSense provides out-of-the-box support for a broad range of model providers and evaluation strategies, and assists users in selecting and deploying suitable evaluation methods for their specific use-cases. This is achieved through two unique components: (1) an interactive guide aiding users in evaluation method selection and (2) automated meta-evaluation tools that assess the reliability of different evaluation approaches using perturbed data. We demonstrate the effectiveness of EvalSense in a case study involving the generation of clinical notes from unstructured doctor-patient dialogues, using a popular open dataset. All code, documentation, and assets associated with EvalSense are open-source and publicly available at https://github.com/nhsengland/evalsense.
Abstract（参考訳）: 大規模言語モデル(LLM)のロバストかつ包括的評価は,LLMシステム構成の効果的な同定と,LLMを機密ドメインにデプロイする際のリスク軽減に不可欠である。しかし、従来の統計指標はオープン・エンド・ジェネレーション・タスクには適さないため、LCMに基づく評価手法への依存度が高まる。それらは慎重に選択されたモデル、プロンプト、パラメータ、評価戦略に依存しており、評価プロセスが設定ミスやバイアスに陥りやすい。本稿では,LLMのためのドメイン固有評価スイートを構築するための,フレキシブルで拡張可能なフレームワークであるEvalSenseを紹介する。 EvalSenseは、幅広いモデルプロバイダと評価戦略のアウト・オブ・ボックスサポートを提供し、ユーザが特定のユースケースに対して適切な評価方法を選択し、デプロイするのを支援する。これは,(1)評価手法の選択においてユーザを支援するインタラクティブガイドと,(2)摂動データを用いた異なる評価手法の信頼性を評価する自動メタ評価ツールである。一般のオープンデータセットを用いて,非構造的医師と患者との対話から臨床ノートを作成するケーススタディにおいて,EvalSenseの有効性を実証した。 EvalSenseに関連するコード、ドキュメント、資産はすべてオープンソースで、https://github.com/nhsengland/evalsense.comで公開されている。

関連論文リスト

MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。 MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文参考訳（メタデータ） (2025-07-17T05:46:27Z)
SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。 SCANには4つの重要なコンポーネントが含まれている。 TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。 RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。 PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文参考訳（メタデータ） (2025-05-10T16:52:40Z)
Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文参考訳（メタデータ） (2025-03-28T14:08:40Z)
SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文参考訳（メタデータ） (2025-03-05T09:37:05Z)
PanguIR Technical Report for NTCIR-18 AEOLLM Task [12.061652026366591]
大規模言語モデル(LLM)はますます重要で、評価が難しい。手作業の評価は包括的ではあるが、コストが高くリソース集約的であることが多い。自動評価はスケーラビリティを提供するが、評価基準の制限によって制約される。
論文参考訳（メタデータ） (2025-03-04T07:40:02Z)
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。我々のベンチマークは多次元評価フレームワークによって特徴づけられる。実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文参考訳（メタデータ） (2024-12-17T15:38:42Z)
SelfPrompt: Autonomously Evaluating LLM Robustness via Domain-Constrained Knowledge Guidelines and Refined Adversarial Prompts [0.6291443816903801]
本稿では,大規模言語モデル(LLM)のロバスト性を自律的に評価する新しいフレームワークを提案する。本稿では,ドメイン制約付き知識グラフ三重項から記述文を生成し,敵対的プロンプトを定式化する。この自己評価機構により、LCMは外部ベンチマークを必要とせずにその堅牢性を評価することができる。
論文参考訳（メタデータ） (2024-12-01T10:58:53Z)
TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains [19.492393243160244]
大規模言語モデル(LLM)は、高度に専門化された垂直ドメインにデプロイされることが多い。既存の垂直領域の評価は、通常、静的な単一ターンデータセットの労働集約的な構築に依存している。垂直領域における自動ベンチマークと探索動的評価のためのフレームワークであるTestAgentを提案する。
論文参考訳（メタデータ） (2024-10-15T11:20:42Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。 FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文参考訳（メタデータ） (2024-04-09T04:17:51Z)
Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。フレームワークのコードをGitHubで公開しています。
論文参考訳（メタデータ） (2024-01-30T07:03:32Z)
LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with Large Language Models [28.441725610692714]
大規模言語モデル(LLM)を用いたオープンドメイン会話のための多次元自動評価手法を提案する。単一のモデルコールにおける会話品質の多次元を網羅する統合評価スキーマを利用する単一プロンプトベースの評価手法を設計する。各種ベンチマークデータセットを用いたLCM-Evalの性能評価を行い,その有効性,効率,適応性について,最先端評価法と比較した。
論文参考訳（メタデータ） (2023-05-23T05:57:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。