論文の概要: Integrated Framework for LLM Evaluation with Answer Generation
- arxiv url: http://arxiv.org/abs/2509.20097v2
- Date: Wed, 01 Oct 2025 06:09:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.775455
- Title: Integrated Framework for LLM Evaluation with Answer Generation
- Title(参考訳): 回答生成によるLCM評価統合フレームワーク
- Authors: Sujeong Lee, Hayoung Lee, Seongsoo Heo, Wonik Choi,
- Abstract要約: 本稿では,エキスパート駆動型診断システムSPEEDを用いたテキスト自己修正記述評価という統合評価フレームワークを提案する。
SPEEDは、幻覚検出、毒性評価、語彙・文脈的適切性など、複数の次元にわたる専門家のフィードバックを積極的に取り入れている。
実験結果から,SPEEDはさまざまなドメインやデータセットに対して,堅牢かつ一貫した評価性能を実現することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable evaluation of large language models is essential to ensure their applicability in practical scenarios. Traditional benchmark-based evaluation methods often rely on fixed reference answers, limiting their ability to capture important qualitative aspects of generated responses. To address these shortcomings, we propose an integrated evaluation framework called \textit{self-refining descriptive evaluation with expert-driven diagnostics}, SPEED, which utilizes specialized functional experts to perform comprehensive, descriptive analyses of model outputs. Unlike conventional approaches, SPEED actively incorporates expert feedback across multiple dimensions, including hallucination detection, toxicity assessment, and lexical-contextual appropriateness. Experimental results demonstrate that SPEED achieves robust and consistent evaluation performance across diverse domains and datasets. Additionally, by employing relatively compact expert models, SPEED demonstrates superior resource efficiency compared to larger-scale evaluators. These findings illustrate that SPEED significantly enhances fairness and interpretability in LLM evaluations, offering a promising alternative to existing evaluation methodologies.
- Abstract(参考訳): 大規模言語モデルの信頼性評価は,実践シナリオにおける適用性を確保するために不可欠である。
従来のベンチマークベースの評価手法は、しばしば固定参照応答に依存し、生成された応答の重要な質的な側面を捉える能力を制限する。
これらの欠点に対処するために,専門的機能専門家を用いたモデル出力の包括的・記述的分析を行うSPEEDという,エキスパート駆動型診断による記述的評価を行う統合評価フレームワークを提案する。
従来のアプローチとは異なり、SPEEDは幻覚検出、毒性評価、語彙・文脈的適切性など、複数の次元にわたる専門家のフィードバックを積極的に取り入れている。
実験結果から,SPEEDはさまざまなドメインやデータセットに対して,堅牢かつ一貫した評価性能を実現することが示された。
さらに、SPEEDは比較的コンパクトなエキスパートモデルを用いることで、大規模評価器よりも優れた資源効率を示す。
これらの結果から,SPEEDはLCM評価の公平性と解釈可能性を大幅に向上させ,既存の評価手法に代わる有望な代替手段を提供することが明らかとなった。
関連論文リスト
- DREAM: Deep Research Evaluation with Agentic Metrics [21.555357444628044]
本稿では,DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。
DREAM構造評価は、クエリ非依存のメトリクスとツール呼び出しエージェントが生成する適応的なメトリクスを組み合わせた評価プロトコルを用いて行われる。
制御された評価は、DREAMが既存のベンチマークよりも事実や時間的劣化にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2026-02-21T19:14:31Z) - Knowledge-Graph Based RAG System Evaluation Framework [27.082302648704708]
大規模言語モデル(LLM)は重要な研究対象となっている。
Retrieval Augmented Generation (RAG)は、生成したコンテンツの信頼性と関連性を大幅に向上させる。
RAGシステムの評価は依然として難しい課題である。
論文 参考訳(メタデータ) (2025-10-02T20:36:21Z) - Towards Synthesizing Normative Data for Cognitive Assessments Using Generative Multimodal Large Language Models [15.287990843387382]
新しいイメージ刺激に基づく新しい認知テストの開発は、手軽に利用できる規範データがないために困難である。
近年のMLLM(Generative Multimodal Large Language Model)の進歩は、既存の認知テスト画像から合成規範データを生成する新しいアプローチを提供する。
論文 参考訳(メタデータ) (2025-08-25T05:14:15Z) - Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。
このフレームワークは、評価の推測と報告のための体系的な構造を提供する。
我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文 参考訳(メタデータ) (2024-06-14T18:47:37Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。