論文の概要: CALF: Benchmarking Evaluation of LFQA Using Chinese Examinations
- arxiv url: http://arxiv.org/abs/2410.01945v1
- Date: Wed, 2 Oct 2024 18:44:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 09:54:27.582356
- Title: CALF: Benchmarking Evaluation of LFQA Using Chinese Examinations
- Title(参考訳): CALF:中国試験によるLFQAのベンチマーク評価
- Authors: Yuchen Fan, Xin Zhong, Heng Zhou, Yuchen Zhang, Mingyu Liang, Chengxing Xie, Ermo Hua, Ning Ding, Bowen Zhou,
- Abstract要約: LFQA(Long-Form Question Answering)とは、オープンエンドの質問に対して、詳細な段落レベルの回答を生成することを指す。
LFQA評価の標準ベンチマークは今のところ存在しない。
LFQA評価のための中国語exAmination(英語版)(CALF)という、よく構築された参照ベースのベンチマークを最初に提案する。
- 参考スコア(独自算出の注目度): 26.99976916627768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-Form Question Answering (LFQA) refers to generating in-depth, paragraph-level responses to open-ended questions. Although lots of LFQA methods are developed, evaluating LFQA effectively and efficiently remains challenging due to its high complexity and cost. Therefore, there is no standard benchmark for LFQA evaluation till now. To address this gap, we make the first attempt by proposing a well-constructed, reference-based benchmark named Chinese exAmination for LFQA Evaluation (CALF), aiming to rigorously assess the performance of automatic evaluation metrics for LFQA. The CALF benchmark is derived from Chinese examination questions that have been translated into English. It includes up to 1476 examples consisting of knowledge-intensive and nuanced responses. Our evaluation comprises three different settings to ana lyze the behavior of automatic metrics comprehensively. We conducted extensive experiments on 7 traditional evaluation metrics, 3 prompt-based metrics, and 3 trained evaluation metrics, and tested on agent systems for the LFQA evaluation. The results reveal that none of the current automatic evaluation metrics shows comparable performances with humans, indicating that they cannot capture dense information contained in long-form responses well. In addition, we provide a detailed analysis of the reasons why automatic evaluation metrics fail when evaluating LFQA, offering valuable insights to advance LFQA evaluation systems. Dataset and associated codes can be accessed at our GitHub repository.
- Abstract(参考訳): LFQA(Long-Form Question Answering)とは、オープンエンドの質問に対して、詳細な段落レベルの回答を生成することを指す。
多くのLFQA手法が開発されているが、その複雑さとコストが高いため、LFQAを効果的かつ効率的に評価することは困難である。
したがって、LFQA評価の標準ベンチマークは今のところ存在しない。
このギャップに対処するため、我々は、LFQAの自動評価指標の性能を厳格に評価することを目的として、中国によるLFQA評価のための中国語exAmination(英語版)という、よく構築された参照ベースのベンチマークを初めて提案する。
CALFベンチマークは、英語に翻訳された中国の試験問題に由来する。
知識集約とニュアンス応答からなる1476の例を含む。
評価は3つの異なる設定からなり,自動メトリクスの挙動を総合的に分析する。
我々は,従来の評価指標7つ,プロンプトベースの指標3つ,訓練された評価指標3つについて広範な実験を行い,LFQA評価のためのエージェントシステム上での試験を行った。
その結果、現在の自動評価指標はいずれも人間と同等のパフォーマンスを示しておらず、長文応答に含まれる濃密な情報をうまくキャプチャできないことが明らかとなった。
さらに,LFQA評価において自動評価指標が失敗する原因を詳細に分析し,LFQA評価システムの進歩に有用な洞察を提供する。
データセットと関連するコードは、GitHubリポジトリからアクセスできます。
関連論文リスト
- LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z) - Towards Flexible Evaluation for Generative Visual Question Answering [17.271448204525612]
本稿では,視覚質問応答(VQA)データセット上で,制約のないオープンエンド応答を評価するためにセマンティクスに基づく評価手法を提案する。
さらに,本論文では,VQA評価のユニークな特徴を基礎として,精巧な設計を施したセマンティックフレキシブルVQA評価器(SFVE)を提案する。
論文 参考訳(メタデータ) (2024-08-01T05:56:34Z) - Improving Automatic VQA Evaluation Using Large Language Models [6.468405905503242]
本稿では,より優れたVQAメトリックを構築するために,命令調整型大規模言語モデルのコンテキスト内学習機能を活用することを提案する。
提案手法は,VQAモデルおよびベンチマークにおける既存の指標と比較して,人間の判断と相関性が高いことを示す。
論文 参考訳(メタデータ) (2023-10-04T03:59:57Z) - Automatic Answerability Evaluation for Question Generation [32.1067137848404]
提案するPMANは,提案した質問が参照回答によって答えられるかどうかを評価するための,新しい自動評価指標である。
GPTに基づくQGモデルの実装は,回答可能な質問を生成する上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-22T00:13:07Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文 参考訳(メタデータ) (2023-05-24T02:52:48Z) - QAScore -- An Unsupervised Unreferenced Metric for the Question
Generation Evaluation [6.697751970080859]
質問生成(QG)は、選択された回答の集合で、ある項目に対する質問を構成するタスクを自動化することを目的としている。
QAScoreと呼ばれるQGシステムを評価するためのより良いメカニズムを提供する可能性を秘めている新しい基準フリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-10-09T19:00:39Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。