論文の概要: ErrEval: Error-Aware Evaluation for Question Generation through Explicit Diagnostics
- arxiv url: http://arxiv.org/abs/2601.10406v1
- Date: Thu, 15 Jan 2026 13:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.152371
- Title: ErrEval: Error-Aware Evaluation for Question Generation through Explicit Diagnostics
- Title(参考訳): ErrEval: 明示的診断による質問生成の誤り認識評価
- Authors: Weiping Fu, Bifan Wei, Jingyi Hao, Yushun Zhang, Jian Zhang, Jiaxin Wang, Bo Li, Yu He, Lingling Zhang, Jun Liu,
- Abstract要約: ErrEvalはフレキシブルでエラーを意識した評価フレームワークで、明示的なエラー診断を通じてQG評価を強化する。
ErrEvalは、評価を2段階のエラー診断プロセスとして修正し、次にインフォメーションスコアを付ける。
- 参考スコア(独自算出の注目度): 30.569255227942634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Question Generation (QG) often produces outputs with critical defects, such as factual hallucinations and answer mismatches. However, existing evaluation methods, including LLM-based evaluators, mainly adopt a black-box and holistic paradigm without explicit error modeling, leading to the neglect of such defects and overestimation of question quality. To address this issue, we propose ErrEval, a flexible and Error-aware Evaluation framework that enhances QG evaluation through explicit error diagnostics. Specifically, ErrEval reformulates evaluation as a two-stage process of error diagnosis followed by informed scoring. At the first stage, a lightweight plug-and-play Error Identifier detects and categorizes common errors across structural, linguistic, and content-related aspects. These diagnostic signals are then incorporated as explicit evidence to guide LLM evaluators toward more fine-grained and grounded judgments. Extensive experiments on three benchmarks demonstrate the effectiveness of ErrEval, showing that incorporating explicit diagnostics improves alignment with human judgments. Further analyses confirm that ErrEval effectively mitigates the overestimation of low-quality questions.
- Abstract(参考訳): 自動質問生成(英語版)(QG)は、しばしば、事実の幻覚や答えのミスマッチのような重大な欠陥のある出力を生成する。
しかし、LCMに基づく評価器を含む既存の評価手法は、明示的なエラーモデリングを伴わずにブラックボックスと全体論的パラダイムを採用しており、そのような欠陥を無視し、質問品質を過度に見積もっている。
この問題に対処するために、明示的なエラー診断を通じてQG評価を強化するフレキシブルでエラー対応評価フレームワークであるErrEvalを提案する。
具体的には、ErrEvalは、エラー診断の2段階のプロセスとして評価を修正し、次にインフォメーションスコアを付与する。
最初の段階では、ライトウェイトなプラグアンドプレイのエラー識別器が、構造的、言語的、コンテンツ関連の各側面にまたがる一般的なエラーを検出し、分類する。
これらの診断信号は、LLM評価者をよりきめ細やかな判断へと導くための明確な証拠として組み込まれている。
3つのベンチマークによる大規模な実験は、ErrEvalの有効性を示し、明示的な診断を取り入れることで、人間の判断との整合性が向上することを示した。
さらなる分析により、ErrEvalは品質の低い質問の過大評価を効果的に軽減することを確認した。
関連論文リスト
- A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist [1.1731001328350983]
本研究では,専門家検証データセットを用いた行動・メタ認知分析手法を適用した。
メトリクスを用いた認知適応と校正誤差の分析:予測誤差(ECE)とベースライン正規化相対誤差(RCE)
以上の結果より, 両モデルとも, 特に臨床ロールプレイング条件下では, 誤診や過信感が顕著であった。
論文 参考訳(メタデータ) (2025-10-22T00:15:02Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - GRAMMAR: Grounded and Modular Methodology for Assessment of Closed-Domain Retrieval-Augmented Language Model [6.106667677504318]
Retrieval-Augmented Generation (RAG) システムは、クローズドドメインや社内知識ベースを問うために様々な産業で広く利用されている。
これらのシステムを評価することは、クローズドドメインデータのプライベートな性質と、真理を検証できるクエリの不足により、大きな課題となる。
本稿では,グラウンドドデータ生成プロセスを含む評価フレームワークであるGRAMMARと,欠陥モジュールを効果的に特定する評価プロトコルを紹介する。
論文 参考訳(メタデータ) (2024-04-30T03:29:30Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - DEE: Dual-stage Explainable Evaluation Method for Text Generation [21.37963672432829]
テキスト生成の品質を推定するための2段階説明可能な評価手法であるDEEを紹介する。
Llama 2 上に構築された DEE は、生成したテキスト中のエラーの効率的な識別を行うためのステージ固有の命令によって導かれる2段階の原理に従う。
このデータセットは、幻覚や毒性などの新たな問題に対処し、DEEの評価基準の範囲を広げる。
論文 参考訳(メタデータ) (2024-03-18T06:30:41Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Shortcomings of Question Answering Based Factuality Frameworks for Error
Localization [51.01957350348377]
質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。
このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。
本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
論文 参考訳(メタデータ) (2022-10-13T05:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。