論文の概要: An Empirical Study of Evaluating Long-form Question Answering
- arxiv url: http://arxiv.org/abs/2504.18413v1
- Date: Fri, 25 Apr 2025 15:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.812501
- Title: An Empirical Study of Evaluating Long-form Question Answering
- Title(参考訳): 長文質問応答の評価に関する実証的研究
- Authors: Ning Xian, Yixing Fan, Ruqing Zhang, Maarten de Rijke, Jiafeng Guo,
- Abstract要約: 我々は,5,236個のファクトイドおよび非ファクトイドの長文回答を,異なる大言語モデルから収集する。
我々は,2,079件の人的評価を行い,正確性と情報性に着目した。
回答のスタイルや長さ,質問のカテゴリが,自動評価指標に偏りがあることが分かりました。
- 参考スコア(独自算出の注目度): 77.8023489322551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: \Ac{LFQA} aims to generate lengthy answers to complex questions. This scenario presents great flexibility as well as significant challenges for evaluation. Most evaluations rely on deterministic metrics that depend on string or n-gram matching, while the reliability of large language model-based evaluations for long-form answers remains relatively unexplored. We address this gap by conducting an in-depth study of long-form answer evaluation with the following research questions: (i) To what extent do existing automatic evaluation metrics serve as a substitute for human evaluations? (ii) What are the limitations of existing evaluation metrics compared to human evaluations? (iii) How can the effectiveness and robustness of existing evaluation methods be improved? We collect 5,236 factoid and non-factoid long-form answers generated by different large language models and conduct a human evaluation on 2,079 of them, focusing on correctness and informativeness. Subsequently, we investigated the performance of automatic evaluation metrics by evaluating these answers, analyzing the consistency between these metrics and human evaluations. We find that the style, length of the answers, and the category of questions can bias the automatic evaluation metrics. However, fine-grained evaluation helps mitigate this issue on some metrics. Our findings have important implications for the use of large language models for evaluating long-form question answering. All code and datasets are available at https://github.com/bugtig6351/lfqa_evaluation.
- Abstract(参考訳): Ac{LFQA} は複雑な質問に対する長い答えを生成することを目的としている。
このシナリオは、大きな柔軟性と評価のための大きな課題を示します。
ほとんどの評価は文字列やn-gramのマッチングに依存する決定論的指標に依存しているが、大きな言語モデルに基づく長文解に対する評価の信頼性は、まだ明らかになっていない。
このギャップに対処するために、以下の研究課題を用いて、長文回答評価の詳細な研究を行う。
一 既存の自動評価指標が人的評価の代用としてどの程度機能しているか。
(ii)人的評価と比較して,既存の評価基準の限界は何か。
三 既存の評価方法の有効性と堅牢性をどのように改善するか。
我々は,5,236個のファクトイドおよび非ファクトイドの長文回答を異なる大言語モデルで収集し,その正しさと情報性に着目した2,079個の評価を行った。
その後、これらの回答を評価し、これらの指標と人的評価との整合性を解析し、自動評価指標の性能について検討した。
回答のスタイルや長さ,質問のカテゴリが,自動評価指標に偏りがあることが分かりました。
しかし、きめ細かい評価は、いくつかのメトリクスでこの問題を軽減するのに役立ちます。
本研究は,長文質問応答の評価に大規模言語モデルを用いることに重要な意味を持つ。
すべてのコードとデータセットはhttps://github.com/bugtig6351/lfqa_evaluationで入手できる。
関連論文リスト
- Accurate and Nuanced Open-QA Evaluation Through Textual Entailment [4.762213968673381]
本稿では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討する。
提案するエンテーメントに基づく評価では,回答間の推論ギャップを定量化することにより,ボーナスや部分マークの割り当てが可能である。
論文 参考訳(メタデータ) (2024-05-26T21:33:27Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。
この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。
評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文 参考訳(メタデータ) (2023-07-06T14:42:01Z) - A Critical Evaluation of Evaluations for Long-form Question Answering [48.51361567469683]
LFQA(Long-form Question answering)は、幅広い質問に答えることができるが、その柔軟性は評価に大きな課題をもたらす。
本研究は,人的・自動的な評価の実践を網羅した,長文回答の評価を初めて対象とした研究である。
論文 参考訳(メタデータ) (2023-05-29T16:54:24Z) - DEnsity: Open-domain Dialogue Evaluation Metric using Density Estimation [24.224114300690758]
ニューラル分類器から得られる特徴空間の密度推定を利用して応答を評価するDernityを提案する。
我々の測定基準は、人間の会話の分布にどれだけ反応が現れるかを測定する。
論文 参考訳(メタデータ) (2023-05-08T14:10:40Z) - Just Rank: Rethinking Evaluation with Word and Sentence Similarities [105.5541653811528]
埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T08:40:05Z) - Human Evaluation of Creative NLG Systems: An Interdisciplinary Survey on
Recent Papers [0.685316573653194]
創造的な自然言語生成に関する論文の中で,人間の評価について調査する。
最も典型的な人間の評価法は、通常5点の尺度で、スケールされたサーベイである。
最もよく評価されるパラメータは、意味、統語的正しさ、新規性、関連性、感情的価値である。
論文 参考訳(メタデータ) (2021-07-31T18:54:30Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。