論文の概要: Evaluating Open Question Answering Evaluation
- arxiv url: http://arxiv.org/abs/2305.12421v1
- Date: Sun, 21 May 2023 10:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 20:32:36.089201
- Title: Evaluating Open Question Answering Evaluation
- Title(参考訳): オープン質問応答評価の評価
- Authors: Cunxiang Wang, Sirui Cheng, Zhikun Xu, Bowen Ding, Yidong Wang, Yue
Zhang
- Abstract要約: 我々は,AIが生成する回答の精度を,オープンQA内の標準回答と関連づけて評価する新しいタスク,QA評価(QA-Eval)を導入する。
具体的には、人間の評価と高い相関を示す手法を調査し、それらをより信頼性の高いものとみなす。
この研究から生成されたデータセットは、より効果的な自動評価ツールの開発を促進することが期待されている。
- 参考スコア(独自算出の注目度): 10.981301015236602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study focuses on the evaluation of Open Question Answering (Open-QA)
tasks, which have become vital in the realm of artificial intelligence. Current
automatic evaluation methods have shown limitations, indicating that human
evaluation still remains the most reliable approach. We introduce a new task,
QA Evaluation (QA-Eval), designed to assess the accuracy of AI-generated
answers in relation to standard answers within Open-QA. Our evaluation of these
methods utilizes human-annotated results, and we employ accuracy and F1 score
to measure their performance. Specifically, the work investigates methods that
show high correlation with human evaluations, deeming them more reliable. We
also discuss the pitfalls of current methods, such as their inability to
accurately judge responses that contain excessive information. The dataset
generated from this work is expected to facilitate the development of more
effective automatic evaluation tools. We believe this new QA-Eval task and
corresponding dataset will prove valuable for future research in this area.
- Abstract(参考訳): 本研究では,人工知能の領域において重要になったオープンQAタスクの評価に焦点を当てた。
現在の自動評価手法は限界を示しており、人間の評価が依然として最も信頼できるアプローチであることを示している。
我々は,AIが生成する回答の精度を,オープンQA内の標準回答と関連づけて評価する新しいタスク,QA評価(QA-Eval)を導入する。
本手法の評価は,人間に注釈された結果を用い,その性能を測定するために精度とf1スコアを用いる。
具体的には,人間評価と高い相関を示す手法について検討し,その信頼性について検討した。
また,過度な情報を含む応答を正確に判断できないなど,現在の手法の落とし穴についても論じる。
この研究から生成されたデータセットは、より効果的な自動評価ツールの開発を促進することが期待されている。
この新たなQA-Evalタスクとそれに対応するデータセットは、この分野の今後の研究に有用であると考えています。
関連論文リスト
- IQA-EVAL: Automatic Evaluation of Human-Model Interactive Question Answering [10.338962367542331]
本稿では,対話型質問応答評価を実現するための自動評価フレームワークIQA-EVALを提案する。
また, LLM を用いた評価エージェント (LEA) を導入し, 人の振る舞いをシミュレートし, IQA モデルとの相互作用を生成する。
本稿では,GPT-4をバックボーンモデルとした評価フレームワークが,IQAタスクにおける人的評価と高い相関性を実現することを示す。
論文 参考訳(メタデータ) (2024-08-24T10:34:20Z) - Accurate and Nuanced Open-QA Evaluation Through Textual Entailment [4.762213968673381]
本稿では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討する。
提案するエンテーメントに基づく評価では,回答間の推論ギャップを定量化することにより,ボーナスや部分マークの割り当てが可能である。
論文 参考訳(メタデータ) (2024-05-26T21:33:27Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - The Generative AI Paradox on Evaluation: What It Can Solve, It May Not
Evaluate [17.77014177096838]
本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。
質問応答(QA)における3つのLLMと1つのオープンソースLMの性能評価と,TriviaQAデータセットを用いた評価課題について述べる。
論文 参考訳(メタデータ) (2024-02-09T06:16:08Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。
我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。
我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文 参考訳(メタデータ) (2023-02-14T18:59:02Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。