論文の概要: Integrated Framework for LLM Evaluation with Answer Generation
- arxiv url: http://arxiv.org/abs/2509.20097v2
- Date: Wed, 01 Oct 2025 06:09:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.775455
- Title: Integrated Framework for LLM Evaluation with Answer Generation
- Title(参考訳): 回答生成によるLCM評価統合フレームワーク
- Authors: Sujeong Lee, Hayoung Lee, Seongsoo Heo, Wonik Choi,
- Abstract要約: 本稿では,エキスパート駆動型診断システムSPEEDを用いたテキスト自己修正記述評価という統合評価フレームワークを提案する。
SPEEDは、幻覚検出、毒性評価、語彙・文脈的適切性など、複数の次元にわたる専門家のフィードバックを積極的に取り入れている。
実験結果から,SPEEDはさまざまなドメインやデータセットに対して,堅牢かつ一貫した評価性能を実現することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable evaluation of large language models is essential to ensure their applicability in practical scenarios. Traditional benchmark-based evaluation methods often rely on fixed reference answers, limiting their ability to capture important qualitative aspects of generated responses. To address these shortcomings, we propose an integrated evaluation framework called \textit{self-refining descriptive evaluation with expert-driven diagnostics}, SPEED, which utilizes specialized functional experts to perform comprehensive, descriptive analyses of model outputs. Unlike conventional approaches, SPEED actively incorporates expert feedback across multiple dimensions, including hallucination detection, toxicity assessment, and lexical-contextual appropriateness. Experimental results demonstrate that SPEED achieves robust and consistent evaluation performance across diverse domains and datasets. Additionally, by employing relatively compact expert models, SPEED demonstrates superior resource efficiency compared to larger-scale evaluators. These findings illustrate that SPEED significantly enhances fairness and interpretability in LLM evaluations, offering a promising alternative to existing evaluation methodologies.
- Abstract(参考訳): 大規模言語モデルの信頼性評価は,実践シナリオにおける適用性を確保するために不可欠である。
従来のベンチマークベースの評価手法は、しばしば固定参照応答に依存し、生成された応答の重要な質的な側面を捉える能力を制限する。
これらの欠点に対処するために,専門的機能専門家を用いたモデル出力の包括的・記述的分析を行うSPEEDという,エキスパート駆動型診断による記述的評価を行う統合評価フレームワークを提案する。
従来のアプローチとは異なり、SPEEDは幻覚検出、毒性評価、語彙・文脈的適切性など、複数の次元にわたる専門家のフィードバックを積極的に取り入れている。
実験結果から,SPEEDはさまざまなドメインやデータセットに対して,堅牢かつ一貫した評価性能を実現することが示された。
さらに、SPEEDは比較的コンパクトなエキスパートモデルを用いることで、大規模評価器よりも優れた資源効率を示す。
これらの結果から,SPEEDはLCM評価の公平性と解釈可能性を大幅に向上させ,既存の評価手法に代わる有望な代替手段を提供することが明らかとなった。
関連論文リスト
- Towards Synthesizing Normative Data for Cognitive Assessments Using Generative Multimodal Large Language Models [15.287990843387382]
新しいイメージ刺激に基づく新しい認知テストの開発は、手軽に利用できる規範データがないために困難である。
近年のMLLM(Generative Multimodal Large Language Model)の進歩は、既存の認知テスト画像から合成規範データを生成する新しいアプローチを提供する。
論文 参考訳(メタデータ) (2025-08-25T05:14:15Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。
このフレームワークは、評価の推測と報告のための体系的な構造を提供する。
我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文 参考訳(メタデータ) (2024-06-14T18:47:37Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。