論文の概要: A Critical Evaluation of Evaluations for Long-form Question Answering
- arxiv url: http://arxiv.org/abs/2305.18201v1
- Date: Mon, 29 May 2023 16:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 14:10:59.629653
- Title: A Critical Evaluation of Evaluations for Long-form Question Answering
- Title(参考訳): 長文質問応答の評価に関する批判的評価
- Authors: Fangyuan Xu, Yixiao Song, Mohit Iyyer, Eunsol Choi
- Abstract要約: LFQA(Long-form Question answering)は、幅広い質問に答えることができるが、その柔軟性は評価に大きな課題をもたらす。
本研究は,人的・自動的な評価の実践を網羅した,長文回答の評価を初めて対象とした研究である。
- 参考スコア(独自算出の注目度): 48.51361567469683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-form question answering (LFQA) enables answering a wide range of
questions, but its flexibility poses enormous challenges for evaluation. We
perform the first targeted study of the evaluation of long-form answers,
covering both human and automatic evaluation practices. We hire domain experts
in seven areas to provide preference judgments over pairs of answers, along
with free-form justifications for their choices. We present a careful analysis
of experts' evaluation, which focuses on new aspects such as the
comprehensiveness of the answer. Next, we examine automatic text generation
metrics, finding that no existing metrics are predictive of human preference
judgments. However, some metrics correlate with fine-grained aspects of answers
(e.g., coherence). We encourage future work to move away from a single "overall
score" of the answer and adopt a multi-faceted evaluation, targeting aspects
such as factuality and completeness. We publicly release all of our annotations
and code to spur future work into LFQA evaluation.
- Abstract(参考訳): LFQA(Long-form Question answering)は、幅広い質問に答えることができるが、その柔軟性は評価に大きな課題をもたらす。
本研究は,人間と自動評価の双方を対象とし,長文回答の評価を初めてターゲットとした研究を行う。
私たちは7つの分野のドメインエキスパートを雇い、彼らの選択に対する自由形式の正当化とともに、ペアの回答に対する選好判断を提供する。
本稿では,専門家の評価を慎重に分析し,回答の包括性などの新たな側面に焦点を当てる。
次に,テキストの自動生成指標について検討し,既存の指標が人間の嗜好判断を予測できないことを確認する。
しかし、いくつかのメトリクスは答えのきめ細かい側面(例えばコヒーレンス)と相関する。
我々は,回答の1つの"オーバースコア"から脱却し,事実性や完全性といった側面をターゲットとして,多面的な評価を採用することを推奨する。
すべてのアノテーションとコードを公開して、今後の取り組みをLFQA評価に刺激します。
関連論文リスト
- Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - Ranking Generated Answers: On the Agreement of Retrieval Models with Humans on Consumer Health Questions [25.158868133182025]
本稿では,生成型大規模言語モデル(LLM)の出力を評価する手法を提案する。
我々の採点法は, 専門家の嗜好と相関する。
生成した回答の質がモデルのサイズによって向上する、よく知られた事実を検証して検証する。
論文 参考訳(メタデータ) (2024-08-19T09:27:45Z) - Accurate and Nuanced Open-QA Evaluation Through Textual Entailment [4.762213968673381]
本稿では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討する。
提案するエンテーメントに基づく評価では,回答間の推論ギャップを定量化することにより,ボーナスや部分マークの割り当てが可能である。
論文 参考訳(メタデータ) (2024-05-26T21:33:27Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - Continually Improving Extractive QA via Human Feedback [59.49549491725224]
本研究では,人間のフィードバックによる抽出質問応答(QA)システムの改善を継続的に進める。
多様な設定の下で何千ものユーザインタラクションを含む実験を行い、時間とともにフィードバックからの学習の理解を広げます。
論文 参考訳(メタデータ) (2023-05-21T14:35:32Z) - AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer
Summarization [73.91543616777064]
Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。
回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。
本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
論文 参考訳(メタデータ) (2021-11-11T21:48:02Z) - Exploring Question-Specific Rewards for Generating Deep Questions [42.243227323241584]
我々は、生成した質問の流布度、妥当性、回答可能性を改善するために、ターゲットとする3つの異なる報酬を設計する。
質問固有報酬の最適化は、一般的に自動評価指標の性能向上につながる。
論文 参考訳(メタデータ) (2020-11-02T16:37:30Z) - ProtoQA: A Question Answering Dataset for Prototypical Common-Sense
Reasoning [35.6375880208001]
本稿では,人工知能システムの常識推論能力をトレーニングし,評価するための新しい質問応答データセットを提案する。
トレーニングセットは、長期にわたる国際ゲームショーFAMILY-FEUDでプレイされている既存の質問セットから収集される。
また,モデルがランク付けされた回答リストを出力しなければならない生成的評価タスクを提案する。
論文 参考訳(メタデータ) (2020-05-02T09:40:05Z) - Review-guided Helpful Answer Identification in E-commerce [38.276241153439955]
製品固有のコミュニティ質問応答プラットフォームは、潜在的な顧客の懸念に対処するのに大いに役立ちます。
このようなプラットフォーム上でユーザが提供する回答は、その品質に大きく違いがあります。
コミュニティからのヘルプフルネスの投票は、回答の全体的な品質を示すことができるが、しばしば欠落している。
論文 参考訳(メタデータ) (2020-03-13T11:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。