論文の概要: CBench: Towards Better Evaluation of Question Answering Over Knowledge
Graphs
- arxiv url: http://arxiv.org/abs/2105.00811v1
- Date: Mon, 5 Apr 2021 15:41:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 06:10:45.925506
- Title: CBench: Towards Better Evaluation of Question Answering Over Knowledge
Graphs
- Title(参考訳): CBench: 知識グラフによる質問回答のより良い評価を目指す
- Authors: Abdelghny Orogat, Isabelle Liu, Ahmed El-Roby
- Abstract要約: CBenchは,ベンチマークを分析し,質問応答システムを評価するための情報ベンチマークスイートである。
CBenchは、いくつかのきめ細かい言語的、構文的、および質問やクエリの構造的特性に関して、既存のベンチマークを分析するのに使うことができる。
- 参考スコア(独自算出の注目度): 3.631024220680066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been an increase in the number of knowledge graphs that
can be only queried by experts. However, describing questions using structured
queries is not straightforward for non-expert users who need to have sufficient
knowledge about both the vocabulary and the structure of the queried knowledge
graph, as well as the syntax of the structured query language used to describe
the user's information needs. The most popular approach introduced to overcome
the aforementioned challenges is to use natural language to query these
knowledge graphs. Although several question answering benchmarks can be used to
evaluate question-answering systems over a number of popular knowledge graphs,
choosing a benchmark to accurately assess the quality of a question answering
system is a challenging task.
In this paper, we introduce CBench, an extensible, and more informative
benchmarking suite for analyzing benchmarks and evaluating question answering
systems. CBench can be used to analyze existing benchmarks with respect to
several fine-grained linguistic, syntactic, and structural properties of the
questions and queries in the benchmark. We show that existing benchmarks vary
significantly with respect to these properties deeming choosing a small subset
of them unreliable in evaluating QA systems. Until further research improves
the quality and comprehensiveness of benchmarks, CBench can be used to
facilitate this evaluation using a set of popular benchmarks that can be
augmented with other user-provided benchmarks. CBench not only evaluates a
question answering system based on popular single-number metrics but also gives
a detailed analysis of the linguistic, syntactic, and structural properties of
answered and unanswered questions to better help the developers of question
answering systems to better understand where their system excels and where it
struggles.
- Abstract(参考訳): 近年,専門家のみに問い合わせ可能な知識グラフの数が増加している。
しかし, 構造化クエリを用いた質問の記述は, 語彙や知識グラフの構造について十分な知識を持つ必要のある非専門家ユーザや, ユーザの情報ニーズを記述するために使用される構造化クエリ言語の構文にとって, 簡単ではない。
上記の課題を克服するために導入された最も一般的なアプローチは、自然言語を使って知識グラフをクエリすることだ。
いくつかの質問応答ベンチマークは、多くの一般的な知識グラフよりも質問応答システムを評価するために使用できるが、質問応答システムの品質を正確に評価するベンチマークを選択することは難しい課題である。
本稿では,ベンチマーク分析と質問応答システム評価のための拡張性のある,より情報性の高いベンチマークスイートであるCBenchを紹介する。
CBenchは、ベンチマーク内の質問やクエリのいくつかのきめ細かい言語的、構文的、構造的特性に関して、既存のベンチマークを分析するために使用することができる。
既存のベンチマークは、これらの特性に対して、QAシステム評価において信頼性の低いサブセットを選択すると、大きく異なることを示す。
さらなる研究がベンチマークの品質と包括性を改善するまで、CBenchは、他のユーザが提供するベンチマークで拡張可能な人気のあるベンチマークセットを使用して、この評価を容易にするために使用することができる。
cbenchは、人気のある単数メトリクスに基づく質問応答システムを評価するだけでなく、回答された質問の言語的、構文的、構造的特性を詳細に分析し、質問応答システムの開発者がシステムのどこが優れているのか、どこで苦労しているかをよりよく理解できるように支援する。
関連論文リスト
- Do You Know What You Are Talking About? Characterizing Query-Knowledge Relevance For Reliable Retrieval Augmented Generation [19.543102037001134]
言語モデル(LM)は幻覚や誤報に悩まされていることが知られている。
外部知識コーパスから検証可能な情報を検索する検索拡張生成(RAG)は、これらの問題に対する具体的な解決策を提供する。
RAG生成品質は、ユーザのクエリと検索したドキュメントの関連性に大きく依存する。
論文 参考訳(メタデータ) (2024-10-10T19:14:55Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Evaluation of Question Generation Needs More References [7.876222232341623]
我々は、より堅牢なQG評価のために、基準質問を言い換えることを提案する。
GPT-3のような大規模言語モデルを用いて,意味論的・統語論的に多様な質問を作成した。
論文 参考訳(メタデータ) (2023-05-26T04:40:56Z) - SkillQG: Learning to Generate Question for Reading Comprehension
Assessment [54.48031346496593]
本稿では,機械読解モデルの評価と改善を目的とした,制御可能な理解型を用いた質問生成フレームワークを提案する。
まず、階層的なスキルベースのスキーマに基づいて理解型の質問をフレーム化し、その後、スキル条件付き質問生成器として$textttSkillQG$を定式化する。
経験的な結果から、$textttSkillQG$は、品質、妥当性、スキル制御性という点でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-08T14:40:48Z) - Multiple-Choice Question Generation: Towards an Automated Assessment
Framework [0.0]
トランスフォーマーをベースとした事前学習型言語モデルでは,コンテキスト段落から適切な質問を生成する能力が実証されている。
我々は,質問文と可能な回答の両方を文脈段落から生成しなければならない完全自動複数選択質問生成システム(MCQG)に焦点を当てる。
論文 参考訳(メタデータ) (2022-09-23T19:51:46Z) - A Benchmark for Generalizable and Interpretable Temporal Question
Answering over Knowledge Bases [67.33560134350427]
TempQA-WDは時間的推論のためのベンチマークデータセットである。
Wikidataは、最も頻繁にキュレーションされ、公開されている知識ベースである。
論文 参考訳(メタデータ) (2022-01-15T08:49:09Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - Open-Retrieval Conversational Machine Reading [80.13988353794586]
会話機械読解では、システムは自然言語規則を解釈し、ハイレベルな質問に答え、フォローアップの明確化を問う必要がある。
既存の作業では、ルールテキストがユーザ毎の質問に対して提供されると仮定し、実際のシナリオにおいて必須の検索ステップを無視する。
本研究では,対話型機械読解のオープンリトリーバル設定を提案し,検討する。
論文 参考訳(メタデータ) (2021-02-17T08:55:01Z) - Exploring and Analyzing Machine Commonsense Benchmarks [0.13999481573773073]
我々は、これらのアプローチのメタデータを調整するための共通の語彙の欠如は、システムの欠陥を理解するための努力で研究者を制限します。
ベンチマークメタデータを形式化する一般的な語彙であるMCS Benchmark Ontologyについて説明します。
論文 参考訳(メタデータ) (2020-12-21T19:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。