論文の概要: MEBench: Benchmarking Large Language Models for Cross-Document Multi-Entity Question Answering
- arxiv url: http://arxiv.org/abs/2502.18993v1
- Date: Wed, 26 Feb 2025 09:56:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:57:07.022660
- Title: MEBench: Benchmarking Large Language Models for Cross-Document Multi-Entity Question Answering
- Title(参考訳): MEBench: クロスドキュメントな多要素質問回答のための大規模言語モデルのベンチマーク
- Authors: Teng Lin,
- Abstract要約: マルチエンタリティ質問応答(MEQA)は,大規模言語モデル(LLM)において重要な課題である。
MEBenchは、断片化された情報の検索、統合、推論を行うLLMの能力を評価するために設計された、新しいマルチドキュメント、マルチエンタリティベンチマークである。
本ベンチマークでは,MEQAタスクにおける情報抽出の完全性と事実的精度の重要性を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Multi-entity question answering (MEQA) represents significant challenges for large language models (LLM) and retrieval-augmented generation (RAG) systems, which frequently struggle to consolidate scattered information across diverse documents. While existing methods excel at single-document comprehension, they often struggle with cross-document aggregation, particularly when resolving entity-dense questions like "What is the distribution of ACM Fellows among various fields of study?", which require integrating entity-centric insights from heterogeneous sources (e.g., Wikipedia pages). To address this gap, we introduce MEBench, a novel multi-document, multi-entity benchmark designed to systematically evaluate LLMs' capacity to retrieve, consolidate, and reason over fragmented information. Our benchmark comprises 4,780 questions which are systematically categorized into three primary categories, further divided into eight distinct types, ensuring broad coverage of real-world multi-entity reasoning scenarios. Our experiments on state-of-the-art LLMs (e.g., GPT-4, Llama-3) and RAG pipelines reveal critical limitations: even advanced models achieve only 59% accuracy on MEBench. Our benchmark emphasizes the importance of completeness and factual precision of information extraction in MEQA tasks, using Entity-Attributed F1 (EA-F1) metric for granular evaluation of entity-level correctness and attribution validity. MEBench not only highlights systemic weaknesses in current LLM frameworks but also provides a foundation for advancing robust, entity-aware QA architectures.
- Abstract(参考訳): マルチエンタリティ質問応答(MEQA)は、多言語モデル(LLM)と検索強化世代(RAG)システムにおいて重要な課題であり、様々な文書に散在する情報の統合にしばしば苦労する。
既存の手法は単一文書の理解において優れているが、特に異種情報源(ウィキペディアページなど)からエンティティ中心の洞察を統合する必要がある「ACMフェローの様々な分野における分布は何か?
このギャップに対処するため、私たちは、断片化された情報の検索、統合、理性に関するLSMの能力を体系的に評価する、新しいマルチドキュメント、マルチエンタリティベンチマークであるMEBenchを紹介した。
このベンチマークでは,4,780の質問を3つのカテゴリに分類し,さらに8つのカテゴリに分類し,実世界の多義性推論シナリオを広範囲にカバーした。
最新のLCM(例: GPT-4, Llama-3)およびRAGパイプラインに関する実験により,MEBenchの精度は59%に過ぎなかった。
本稿では,MEQAタスクにおける情報抽出の完全性と実測精度の重要性を強調し,エンティティレベルの正確さと帰属妥当性の詳細な評価にEntity-Attributed F1(EA-F1)測定値を用いた。
MEBenchは、現在のLLMフレームワークのシステム的弱点を強調しているだけでなく、堅牢でエンティティ対応のQAアーキテクチャを進化させるための基盤も提供している。
関連論文リスト
- VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - TQA-Bench: Evaluating LLMs for Multi-Table Question Answering with Scalable Context and Symbolic Extension [8.489816179329832]
TQA-Benchは,大規模言語モデル(LLM)の複雑なQAタスクをリレーショナルデータ上で処理する能力を評価するために設計された,新しいマルチテーブルQAベンチマークである。
我々のベンチマークでは、現実世界のパブリックデータセットから得られた多様なリレーショナルデータベースインスタンスを組み込んでいます。
我々は、70億から700億のパラメータにまたがる、オープンソースとクローズドソースの両方のLLMを体系的に評価する。
論文 参考訳(メタデータ) (2024-11-29T06:48:13Z) - M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models [27.910693214922052]
基礎モデル評価のためのマルチモーダル・マルチドキュメント科学質問応答ベンチマークであるM3SciQAを紹介する。
M3SciQAは、70の自然言語処理用紙クラスタにまたがる1,452のエキスパート注釈付き質問からなる。
以上の結果から, 現状の基盤モデルは, マルチモーダル情報検索や複数の学術文献における推論において, 人的知識に比べ, 依然として著しく劣っていることが示唆された。
論文 参考訳(メタデータ) (2024-11-06T17:52:01Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [13.638439488923671]
検索拡張生成(RAG)は大規模言語モデル(LLM)の能力を向上させる
既存のRAGソリューションは、実質的に異なる内容の複数のドキュメントを取得する必要がある可能性のあるクエリに焦点を当てていない。
本稿では,このギャップをシンプルかつ強力なアイデアで解決する新しい手法として,MRAG(Multi-Head RAG)を提案する。
論文 参考訳(メタデータ) (2024-06-07T16:59:38Z) - ChEF: A Comprehensive Evaluation Framework for Standardized Assessment
of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。
本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。
詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文 参考訳(メタデータ) (2023-11-05T16:01:40Z) - RethinkingTMSC: An Empirical Study for Target-Oriented Multimodal
Sentiment Classification [70.9087014537896]
目的指向型マルチモーダル感性分類(TMSC)は,学者の間でも注目されている。
この問題の原因を明らかにするために,データセットの広範な実験的評価と詳細な分析を行う。
論文 参考訳(メタデータ) (2023-10-14T14:52:37Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。