論文の概要: MRKE: The Multi-hop Reasoning Evaluation of LLMs by Knowledge Edition
- arxiv url: http://arxiv.org/abs/2402.11924v2
- Date: Sun, 3 Mar 2024 02:23:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 23:59:02.581018
- Title: MRKE: The Multi-hop Reasoning Evaluation of LLMs by Knowledge Edition
- Title(参考訳): MRKE:知識版によるLLMのマルチホップ推論評価
- Authors: Jian Wu, Linyi Yang, Manabu Okumura, Yue Zhang
- Abstract要約: 市販のHotpotQAデータセットを編集して,新たな知識に基づくLCM MHQA評価ベンチマークを導入する。
また,マルチホップ質問に対応するサブクエストと中間回答の形式で推論連鎖を注釈し,評価する。
- 参考スコア(独自算出の注目度): 41.7633932976937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although Large Language Models (LLMs) have shown strong performance in
Multi-hop Question Answering (MHQA) tasks, their real reasoning ability remains
exploration. Current LLM QA evaluation benchmarks have shown limitations,
including 1) data contamination, the evaluation data are potentially exposed to
LLMs during the pretraining stage; and 2) ignoration of the reasoning chain
evaluation. Thus we introduce an LLM MHQA evaluation benchmark, the first QA
benchmark based on the new, unprecedented knowledge by editing the
off-the-shelf HotpotQA dataset; Besides, we also annotate and evaluate the
reasoning chain in the form of sub-questions and intermediate answers
corresponding to the multi-hop questions. Specifically, based on the
observation, 1) LLMs show a performance gap between the original HotpotQA and
our edited data, deeming that current MHQA benchmarks have the potential risk
of data contamination that hard to evaluate LLMs' performance objectively and
scientifically; 2) LLMs only get a small percentage of the right reasoning
chain, e.g. GPT-4 only gets 36.3\% right reasoning chain. We believe this new
Multi-hop QA evaluation benchmark and novel evaluation methods will facilitate
the development of trustworthy LLM evaluation on the MHQA task.
- Abstract(参考訳): 大規模言語モデル(LLM)はMHQA(Multi-hop Question Answering)タスクにおいて高いパフォーマンスを示しているが、真の推論能力はいまだ探索中である。
現在のllm qa評価ベンチマークには、制限がある。
1) データの汚染, 評価データは, 事前訓練期間中に LLM に暴露される可能性がある。
2) 推論連鎖評価の無視
そこで,本研究では,市販のHotpotQAデータセットを編集し,前例のない知識に基づく最初のQAベンチマークであるLLM MHQA評価ベンチマークを導入する。
具体的には、観察に基づいて。
1) LLMは, 従来のHotpotQAと編集したデータの間に性能差を示し, 現在のMHQAベンチマークでは, LLMの性能を客観的かつ科学的に評価することが困難なデータ汚染のリスクがあると考えられた。
2) LLM は正しい推論鎖のごく一部しか得られず、例えば GPT-4 は正しい推論鎖の36.3 %しか得られない。
我々は,新しいマルチホップQA評価ベンチマークと新しい評価手法により,MHQAタスクにおける信頼性の高いLCM評価の開発が容易になると考えている。
関連論文リスト
- Eyes Can Deceive: Benchmarking Counterfactual Reasoning Abilities of Multi-modal Large Language Models [71.34097831618631]
textbfCountertextbfFactual textbfMultitextbfModal reasoning benchmark(略して textbfCFMM)を導入する。
我々のCFMMは6つの課題からなる。
既存のMLLMは、自分たちが見ているものを信じることを好むが、その疑問に提示される反実的な前提を無視している。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。
課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。
質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文 参考訳(メタデータ) (2024-03-26T14:43:48Z) - Let LLMs Take on the Latest Challenges! A Chinese Dynamic Question
Answering Benchmark [69.3415799675046]
我々は,中国インターネットの最新ニュースに関連する質問対を含む中国の動的QAベンチマークCDQAを紹介する。
我々は、人間とモデルを組み合わせたパイプラインを通じて高品質なデータを得る。
また,CDQA上での中国LLMの評価と分析を行った。
論文 参考訳(メタデータ) (2024-02-29T15:22:13Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with
Knowledge Graphs [55.05394799820403]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Beyond the Answers: Reviewing the Rationality of Multiple Choice
Question Answering for the Evaluation of Large Language Models [30.674058754196462]
本研究では,大規模言語モデル(LLM)の評価手法として,MCQA(Multiple Choice Question Answering)の合理性を検討する。
この期待とは対照的に,LLM応答の一貫性に顕著な相違が示唆された。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - PRE: A Peer Review Based Large Language Model Evaluator [15.647772081061987]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。