論文の概要: Evaluating LLMs' Inherent Multi-hop Reasoning Ability
- arxiv url: http://arxiv.org/abs/2402.11924v3
- Date: Wed, 3 Jul 2024 15:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 20:04:00.460954
- Title: Evaluating LLMs' Inherent Multi-hop Reasoning Ability
- Title(参考訳): LLMの連続マルチホップ推論能力の評価
- Authors: Jian Wu, Linyi Yang, Zhen Wang, Manabu Okumura, Yue Zhang,
- Abstract要約: マルチホップQAタスクにおける複数のエビデンスの統合に関する多段階推論能力は、未検討のままである。
現在のマルチホップQAベンチマークは、ウィキペディアのようなオープンソースのコーパスに、事実と注釈が付けられている。
本稿では,LLMの連鎖評価性能を協調的に評価する新しい評価手法であるIRE法を提案する。
- 参考スコア(独自算出の注目度): 39.64489055580211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) excel in question-answering (QA) tasks, their multi-step reasoning abilities on multiple evidence integration on Multi-hop QA tasks remain underexplored. LLMs sometimes generate answers that rely on internal memory rather than reasoning given context, which brings concerns about the evaluation quality of real reasoning abilities. The counterfactual QA task can separate internal memory from reasoning abilities, but focusing solely on final-QA performance without evaluating the multi-step reasoning process is insufficient for reporting LLMs' real reasoning abilities. Current Multi-hop QA (MHQA) benchmarks are factual and annotated on open-source corpora such as Wikipedia, although useful for multi-step reasoning evaluation, showing limitations due to potential data contamination in LLMs pre-training stage. To address this issue, we introduce the Inherent Reasoning Evaluation (IRE) method, a novel evaluation way that jointly evaluates the LLMs' chain-of-reasoning performance based on the first knowledge-edited counterfactual multi-hop QA data which involves editing the original Wikipedia passages, reducing data contamination risks. The IRE comprehensively assesses reasoning chains through sub-QA and final-QA evaluations. Our comparisons reveal significant performance gaps for several LLMs between Wikipedia-based benchmarks and IRE, deeming data contamination issues in existing benchmarks. We believe that the IRE benchmark will enhance and facilitate trustworthy LLM evaluations.
- Abstract(参考訳): 大言語モデル(LLM)は質問応答(QA)タスクに優れるが、マルチホップQAタスクに複数のエビデンスを組み込んだ多段階推論能力は未定である。
LLMは、与えられたコンテキストを推論するのではなく、内部記憶に依存する回答を生成することがあるため、実際の推論能力の評価品質に関する懸念が生じる。
対実的QAタスクは、内部記憶を推論能力から切り離すことができるが、多段階推論プロセスを評価することなく最終QAのパフォーマンスのみにフォーカスすることは、LCMの真の推論能力の報告には不十分である。
現在のマルチホップQA(MHQA)ベンチマークは、ウィキペディアのようなオープンソースのコーポラで実際に注釈付けされているが、多段階の推論評価には有用であり、LLMの事前学習段階における潜在的なデータ汚染による制限を示している。
この問題に対処するため,本研究では,元となるウィキペディアの文節を編集し,データの汚染リスクを低減することを含む,最初の知識を駆使したマルチホップQAデータに基づいて,LLMの連鎖解析性能を共同評価する新しい評価手法であるIRE手法を提案する。
IREは、サブQAおよびファイナルQA評価を通じて、推論チェーンを包括的に評価する。
比較の結果,ウィキペディアベースのベンチマークとIREを比較した結果,既存のベンチマークにおけるデータ汚染の問題を推定する上で,いくつかのLCMに対して大きな性能差がみられた。
IREベンチマークは信頼性の高いLCM評価を強化し、促進すると考えています。
関連論文リスト
- Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - MR-BEN: A Comprehensive Meta-Reasoning Benchmark for Large Language Models [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
メタ推論スキルを必要とするプロセスベースのベンチマークを提案する。
MR-BENは、人間の専門家から収集された5,975の質問からなる総合的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。
これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。
また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-18T16:50:38Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。
課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。
質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文 参考訳(メタデータ) (2024-03-26T14:43:48Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Beyond the Answers: Reviewing the Rationality of Multiple Choice Question Answering for the Evaluation of Large Language Models [29.202758753639078]
本研究では,大規模言語モデル(LLM)の評価手法として,MCQA(Multiple Choice Question Answering)の限界について検討する。
本稿では,モデルの性能をより正確に反映できるMCQ(Multiple-Choice Questions, MCQA+)のデータセット拡張手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。