論文の概要: MINTQA: A Multi-Hop Question Answering Benchmark for Evaluating LLMs on New and Tail Knowledge
- arxiv url: http://arxiv.org/abs/2412.17032v1
- Date: Sun, 22 Dec 2024 14:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:59:46.209209
- Title: MINTQA: A Multi-Hop Question Answering Benchmark for Evaluating LLMs on New and Tail Knowledge
- Title(参考訳): MINTQA: 新たな知識と知識に基づくLLM評価のためのマルチホップ質問回答ベンチマーク
- Authors: Jie He, Nan Hu, Wanqiu Long, Jiaoyan Chen, Jeff Z. Pan,
- Abstract要約: MINTQAは、マルチホップ推論における大規模言語モデルの能力を評価するベンチマークである。
MINTQAは、新しい知識を評価するための10,479対の質問応答ペアと、長い知識を評価するための17,887対の質問応答ペアからなる。
MINTQA上での22の最先端LCMの体系的評価により,複雑な知識ベースクエリを扱う能力に重大な制限があることが判明した。
- 参考スコア(独自算出の注目度): 24.66666826440994
- License:
- Abstract: Large language models (LLMs) have demonstrated impressive capabilities in various reasoning tasks but face significant challenges with complex, knowledge-intensive multi-hop queries, particularly those involving new or long-tail knowledge. Existing benchmarks often fail to fully address these challenges. To bridge this gap, we introduce MINTQA (Multi-hop Question Answering on New and Tail Knowledge), a comprehensive benchmark to evaluate LLMs' capabilities in multi-hop reasoning across four critical dimensions: question handling strategy, sub-question generation, retrieval-augmented generation, and iterative or dynamic decomposition and retrieval. MINTQA comprises 10,479 question-answer pairs for evaluating new knowledge and 17,887 pairs for assessing long-tail knowledge, with each question equipped with corresponding sub-questions and answers. Our systematic evaluation of 22 state-of-the-art LLMs on MINTQA reveals significant limitations in their ability to handle complex knowledge base queries, particularly in handling new or unpopular knowledge. Our findings highlight critical challenges and offer insights for advancing multi-hop reasoning capabilities. The MINTQA benchmark is available at https://github.com/probe2/multi-hop/.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な推論タスクにおいて印象的な能力を示してきたが、複雑な知識集約型マルチホップクエリ、特に新しい知識や長い知識を含むクエリにおいて、重大な課題に直面している。
既存のベンチマークは、これらの課題を完全に解決することができないことが多い。
このギャップを埋めるために、我々はMINTQA(Multi-hop Question Answering on New and Tail Knowledge)を導入し、質問処理戦略、サブクエスト生成、検索強化生成、反復的あるいは動的分解と検索の4つの重要な側面にわたるマルチホップ推論におけるLLMの能力を評価するための総合的なベンチマークを紹介した。
MINTQAは、新しい知識を評価するための10,479対の質問回答ペアと、ロングテール知識を評価する17,887対の質問と、対応するサブクエストと回答を備える。
MINTQAにおける22の最先端LCMの体系的評価は、特に新しい知識や不人気な知識を扱う場合に、複雑な知識ベースクエリを扱う能力に重大な制限があることを明らかにする。
我々の研究は、重要な課題を取り上げ、マルチホップ推論能力を向上させるための洞察を提供する。
MINTQAベンチマークはhttps://github.com/probe2/multi-hop/で公開されている。
関連論文リスト
- MQA-KEAL: Multi-hop Question Answering under Knowledge Editing for Arabic Language [7.488965571323756]
アラビア語(MQA-KEAL)の知識編集に基づくマルチホップ質問回答を提案する。
MQA-KEALは、知識編集を構造化知識単位として外部メモリに格納する。
また,KE による MQA の厳密な性能評価のための MQA-AEVAL も提案した。
論文 参考訳(メタデータ) (2024-09-18T18:40:02Z) - LLM-Based Multi-Hop Question Answering with Knowledge Graph Integration in Evolving Environments [35.3938477255058]
本稿では,大規模言語モデル(GMeLLo)のためのグラフメモリベースの編集について述べる。
これは、知識グラフの明示的な知識表現と、大規模言語モデルの言語的柔軟性を融合させる、単純で効果的な方法である。
以上の結果から,GMeLLoはマルチホップ質問応答ベンチマークであるMQuAKEにおいて,最先端の知識編集手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2024-08-28T16:15:45Z) - Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever [48.5585921817745]
大きな言語モデル(LLM)は知識タグ付けタスクを自動化するために使われる。
算数問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示す。
強化学習に基づくデモレトリバーの提案により,異なるサイズのLLMの潜在能力を活用できた。
論文 参考訳(メタデータ) (2024-06-19T23:30:01Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - Retrieval-enhanced Knowledge Editing in Language Models for Multi-Hop Question Answering [47.199078631274745]
大規模言語モデル(LLM)は質問応答タスクの習熟度を示しているが、しばしばリアルタイム知識の統合に苦慮している。
マルチホップ質問応答のためのRetrieval-Augmented Model Editing (RAE) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-28T17:47:19Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - GenDec: A robust generative Question-decomposition method for Multi-hop
reasoning [32.12904215053187]
マルチホップQAには、複雑な質問に答えるステップバイステップの推論が含まれる。
マルチホップ質問応答における既存の大規模言語モデル(LLM)推論能力は現在も探索が続けられている。
LLMが正しい結論に達するために望ましい推論連鎖に従うかどうかは不明である。
論文 参考訳(メタデータ) (2024-02-17T02:21:44Z) - PokeMQA: Programmable knowledge editing for Multi-hop Question Answering [46.80110170981976]
マルチホップ質問応答(MQA)は、マシンの理解と推論能力を評価する上で難しいタスクの1つである。
マルチホップ質問回答(MQA)のためのフレームワーク、Programmable Knowledge Editorを提案する。
具体的には、LLMの動作を外部のコンフリクト信号に応じて変調する訓練可能なスコープ検出器と相互作用しながら、知識強化されたマルチホップ質問を分解するよう促す。
論文 参考訳(メタデータ) (2023-12-23T08:32:13Z) - Knowledge Crosswords: Geometric Knowledge Reasoning with Large Language Models [49.23348672822087]
構造化された事実制約に縛られた不完全な知識ネットワークからなるベンチマークである知識クロスワードを提案する。
幾何学的知識推論の新しい設定は、既存の原子/線形マルチホップQAを超える新しいLM能力を必要とする。
我々は,既存のLLMと知識クロスワードのアプローチを評価するために,広範囲な実験を行っている。
論文 参考訳(メタデータ) (2023-10-02T15:43:53Z) - Rethinking Label Smoothing on Multi-hop Question Answering [87.68071401870283]
MHQA (Multi-Hop Question Answering) は質問応答において重要な分野である。
本研究では,マルチホップ推論の性能を制限する主要な要因を解析する。
学習プロセスに不確実性を組み込んだ新しいラベル平滑化手法F1 Smoothingを提案する。
論文 参考訳(メタデータ) (2022-12-19T14:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。