論文の概要: MRKE: The Multi-hop Reasoning Evaluation of LLMs by Knowledge Edition
- arxiv url: http://arxiv.org/abs/2402.11924v2
- Date: Sun, 3 Mar 2024 02:23:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 23:59:02.581018
- Title: MRKE: The Multi-hop Reasoning Evaluation of LLMs by Knowledge Edition
- Title(参考訳): MRKE:知識版によるLLMのマルチホップ推論評価
- Authors: Jian Wu, Linyi Yang, Manabu Okumura, Yue Zhang
- Abstract要約: 市販のHotpotQAデータセットを編集して,新たな知識に基づくLCM MHQA評価ベンチマークを導入する。
また,マルチホップ質問に対応するサブクエストと中間回答の形式で推論連鎖を注釈し,評価する。
- 参考スコア(独自算出の注目度): 41.7633932976937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although Large Language Models (LLMs) have shown strong performance in
Multi-hop Question Answering (MHQA) tasks, their real reasoning ability remains
exploration. Current LLM QA evaluation benchmarks have shown limitations,
including 1) data contamination, the evaluation data are potentially exposed to
LLMs during the pretraining stage; and 2) ignoration of the reasoning chain
evaluation. Thus we introduce an LLM MHQA evaluation benchmark, the first QA
benchmark based on the new, unprecedented knowledge by editing the
off-the-shelf HotpotQA dataset; Besides, we also annotate and evaluate the
reasoning chain in the form of sub-questions and intermediate answers
corresponding to the multi-hop questions. Specifically, based on the
observation, 1) LLMs show a performance gap between the original HotpotQA and
our edited data, deeming that current MHQA benchmarks have the potential risk
of data contamination that hard to evaluate LLMs' performance objectively and
scientifically; 2) LLMs only get a small percentage of the right reasoning
chain, e.g. GPT-4 only gets 36.3\% right reasoning chain. We believe this new
Multi-hop QA evaluation benchmark and novel evaluation methods will facilitate
the development of trustworthy LLM evaluation on the MHQA task.
- Abstract(参考訳): 大規模言語モデル(LLM)はMHQA(Multi-hop Question Answering)タスクにおいて高いパフォーマンスを示しているが、真の推論能力はいまだ探索中である。
現在のllm qa評価ベンチマークには、制限がある。
1) データの汚染, 評価データは, 事前訓練期間中に LLM に暴露される可能性がある。
2) 推論連鎖評価の無視
そこで,本研究では,市販のHotpotQAデータセットを編集し,前例のない知識に基づく最初のQAベンチマークであるLLM MHQA評価ベンチマークを導入する。
具体的には、観察に基づいて。
1) LLMは, 従来のHotpotQAと編集したデータの間に性能差を示し, 現在のMHQAベンチマークでは, LLMの性能を客観的かつ科学的に評価することが困難なデータ汚染のリスクがあると考えられた。
2) LLM は正しい推論鎖のごく一部しか得られず、例えば GPT-4 は正しい推論鎖の36.3 %しか得られない。
我々は,新しいマルチホップQA評価ベンチマークと新しい評価手法により,MHQAタスクにおける信頼性の高いLCM評価の開発が容易になると考えている。
関連論文リスト
- Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - TruthEval: A Dataset to Evaluate LLM Truthfulness and Reliability [0.0]
我々は、TruthEvalと呼ばれるベンチマークのためのセンシティブなトピックに関する難解なステートメントのキュレートしたコレクションを提示する。
これらのステートメントは手作業でキュレートされ、既知の真理値を含んでいる。
このデータセットを用いていくつかの初期分析を行い、単純な質問を理解できないという単純なタスクでLLMが失敗する事例をいくつか見出した。
論文 参考訳(メタデータ) (2024-06-04T00:01:35Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Beyond the Answers: Reviewing the Rationality of Multiple Choice Question Answering for the Evaluation of Large Language Models [29.202758753639078]
本研究では,大規模言語モデル(LLM)の評価手法として,MCQA(Multiple Choice Question Answering)の限界について検討する。
本稿では,モデルの性能をより正確に反映できるMCQ(Multiple-Choice Questions, MCQA+)のデータセット拡張手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。