Fugu-MT 論文翻訳(概要): ErrEval: Error-Aware Evaluation for Question Generation through Explicit Diagnostics

論文の概要: ErrEval: Error-Aware Evaluation for Question Generation through Explicit Diagnostics

arxiv url: http://arxiv.org/abs/2601.10406v1
Date: Thu, 15 Jan 2026 13:57:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-16 19:43:19.152371
Title: ErrEval: Error-Aware Evaluation for Question Generation through Explicit Diagnostics
Title（参考訳）: ErrEval: 明示的診断による質問生成の誤り認識評価
Authors: Weiping Fu, Bifan Wei, Jingyi Hao, Yushun Zhang, Jian Zhang, Jiaxin Wang, Bo Li, Yu He, Lingling Zhang, Jun Liu,
Abstract要約: ErrEvalはフレキシブルでエラーを意識した評価フレームワークで、明示的なエラー診断を通じてQG評価を強化する。 ErrEvalは、評価を2段階のエラー診断プロセスとして修正し、次にインフォメーションスコアを付ける。
参考スコア（独自算出の注目度）: 30.569255227942634
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic Question Generation (QG) often produces outputs with critical defects, such as factual hallucinations and answer mismatches. However, existing evaluation methods, including LLM-based evaluators, mainly adopt a black-box and holistic paradigm without explicit error modeling, leading to the neglect of such defects and overestimation of question quality. To address this issue, we propose ErrEval, a flexible and Error-aware Evaluation framework that enhances QG evaluation through explicit error diagnostics. Specifically, ErrEval reformulates evaluation as a two-stage process of error diagnosis followed by informed scoring. At the first stage, a lightweight plug-and-play Error Identifier detects and categorizes common errors across structural, linguistic, and content-related aspects. These diagnostic signals are then incorporated as explicit evidence to guide LLM evaluators toward more fine-grained and grounded judgments. Extensive experiments on three benchmarks demonstrate the effectiveness of ErrEval, showing that incorporating explicit diagnostics improves alignment with human judgments. Further analyses confirm that ErrEval effectively mitigates the overestimation of low-quality questions.
Abstract（参考訳）: 自動質問生成(英語版)(QG)は、しばしば、事実の幻覚や答えのミスマッチのような重大な欠陥のある出力を生成する。しかし、LCMに基づく評価器を含む既存の評価手法は、明示的なエラーモデリングを伴わずにブラックボックスと全体論的パラダイムを採用しており、そのような欠陥を無視し、質問品質を過度に見積もっている。この問題に対処するために、明示的なエラー診断を通じてQG評価を強化するフレキシブルでエラー対応評価フレームワークであるErrEvalを提案する。具体的には、ErrEvalは、エラー診断の2段階のプロセスとして評価を修正し、次にインフォメーションスコアを付与する。最初の段階では、ライトウェイトなプラグアンドプレイのエラー識別器が、構造的、言語的、コンテンツ関連の各側面にまたがる一般的なエラーを検出し、分類する。これらの診断信号は、LLM評価者をよりきめ細やかな判断へと導くための明確な証拠として組み込まれている。 3つのベンチマークによる大規模な実験は、ErrEvalの有効性を示し、明示的な診断を取り入れることで、人間の判断との整合性が向上することを示した。さらなる分析により、ErrEvalは品質の低い質問の過大評価を効果的に軽減することを確認した。

関連論文リスト

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。 GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文参考訳（メタデータ） (2026-03-03T09:36:43Z)
AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文参考訳（メタデータ） (2026-01-23T11:59:13Z)
PaperAudit-Bench: Benchmarking Error Detection in Research Papers for Critical Automated Peer Review [54.141490756509306]
本稿では、エラーデータセットであるPaperAudit-Datasetと、自動レビューフレームワークであるPaperAudit-Reviewの2つのコンポーネントからなるPaperAudit-Benchを紹介する。 PaperAudit-Benchの実験では、モデルと検出深さの誤差検出可能性に大きなばらつきが示された。本研究では,SFTおよびRLによる軽量LLM検出器のトレーニングをサポートし,計算コストの削減による効率的な誤り検出を実現する。
論文参考訳（メタデータ） (2026-01-07T04:26:12Z)
A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist [1.1731001328350983]
本研究では,専門家検証データセットを用いた行動・メタ認知分析手法を適用した。メトリクスを用いた認知適応と校正誤差の分析:予測誤差(ECE)とベースライン正規化相対誤差(RCE) 以上の結果より, 両モデルとも, 特に臨床ロールプレイング条件下では, 誤診や過信感が顕著であった。
論文参考訳（メタデータ） (2025-10-22T00:15:02Z)
The Role of Review Process Failures in Affective State Estimation: An Empirical Investigation of DEAP Dataset [0.45080838507508303]
感情認識のためのDEAPデータセットについて101つの研究を概観した。レビューされた論文の87%近くが、これらのエラーを1つ以上含んでいることがわかった。これらの結果は、標準化された評価実践における根本的なギャップを明らかにし、神経科学における機械学習応用のためのピアレビュープロセスにおける重要な欠陥を強調している。
論文参考訳（メタデータ） (2025-08-04T13:40:25Z)
MedErr-CT: A Visual Question Answering Benchmark for Identifying and Correcting Errors in CT Reports [4.769418278782809]
MedErr-CTは医療MLLMのCTレポートにおける誤りの特定と修正能力を評価するための新しいベンチマークである。ベンチマークには6つのエラーカテゴリが含まれている。4つの視覚中心エラー(Omission, Insertion, Direction, Size)と2つの語彙的エラータイプ(Unit, Typo)だ。
論文参考訳（メタデータ） (2025-06-24T00:51:03Z)
Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文参考訳（メタデータ） (2025-05-27T11:56:59Z)
HAMIL-QA: Hierarchical Approach to Multiple Instance Learning for Atrial LGE MRI Quality Assessment [0.21065896965719066]
本研究では,これらの障害を克服するためのマルチインスタンス学習(MIL)フレームワークであるHAMIL-QAを紹介する。 Hamil-QAは階層的なバッグとサブバッグ構造を採用しており、サブバッグ内のターゲット分析を可能にし、ボリュームレベルで洞察を集約する。実験の結果,HAMIL-QAは既存のMIL法や従来の教師付きアプローチ,AUROC,F1-Scoreを超越していることがわかった。
論文参考訳（メタデータ） (2024-07-09T22:19:21Z)
GRAMMAR: Grounded and Modular Methodology for Assessment of Closed-Domain Retrieval-Augmented Language Model [6.106667677504318]
Retrieval-Augmented Generation (RAG) システムは、クローズドドメインや社内知識ベースを問うために様々な産業で広く利用されている。これらのシステムを評価することは、クローズドドメインデータのプライベートな性質と、真理を検証できるクエリの不足により、大きな課題となる。本稿では,グラウンドドデータ生成プロセスを含む評価フレームワークであるGRAMMARと,欠陥モジュールを効果的に特定する評価プロトコルを紹介する。
論文参考訳（メタデータ） (2024-04-30T03:29:30Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
DEE: Dual-stage Explainable Evaluation Method for Text Generation [21.37963672432829]
テキスト生成の品質を推定するための2段階説明可能な評価手法であるDEEを紹介する。 Llama 2 上に構築された DEE は、生成したテキスト中のエラーの効率的な識別を行うためのステージ固有の命令によって導かれる2段階の原理に従う。このデータセットは、幻覚や毒性などの新たな問題に対処し、DEEの評価基準の範囲を広げる。
論文参考訳（メタデータ） (2024-03-18T06:30:41Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
Shortcomings of Question Answering Based Factuality Frameworks for Error Localization [51.01957350348377]
質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
論文参考訳（メタデータ） (2022-10-13T05:23:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。