論文の概要: MDBench: A Synthetic Multi-Document Reasoning Benchmark Generated with Knowledge Guidance
- arxiv url: http://arxiv.org/abs/2506.14927v1
- Date: Tue, 17 Jun 2025 19:14:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.462188
- Title: MDBench: A Synthetic Multi-Document Reasoning Benchmark Generated with Knowledge Guidance
- Title(参考訳): MDBench:知識誘導による合成多文書推論ベンチマーク
- Authors: Joseph J. Peper, Wenzhao Qiu, Ali Payani, Lu Wang,
- Abstract要約: MDBenchは,多文書推論のタスクにおいて,大規模言語モジュール (LLM) を評価するための新しいデータセットである。
我々は、新しい合成生成プロセスを使用し、困難な文書セットを制御および効率よく生成することができる。
MDBENCHがすべての手法において重要な課題となることを発見した。
- 参考スコア(独自算出の注目度): 5.192956837901584
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Natural language processing evaluation has made significant progress, largely driven by the proliferation of powerful large language mod-els (LLMs). New evaluation benchmarks are of increasing priority as the reasoning capabilities of LLMs are expanding at a rapid pace. In particular, while multi-document (MD) reasoning is an area of extreme relevance given LLM capabilities in handling longer-context inputs, few benchmarks exist to rigorously examine model behavior in this setting. Moreover, the multi-document setting is historically challenging for benchmark creation due to the expensive cost of annotating long inputs. In this work, we introduce MDBench, a new dataset for evaluating LLMs on the task of multi-document reasoning. Notably, MDBench is created through a novel synthetic generation process, allowing us to controllably and efficiently generate challenging document sets and the corresponding question-answer (QA) examples. Our novel technique operates on condensed structured seed knowledge, modifying it through LLM-assisted edits to induce MD-specific reasoning challenges. We then convert this structured knowledge into a natural text surface form, generating a document set and corresponding QA example. We analyze the behavior of popular LLMs and prompting techniques, finding that MDBENCH poses significant challenges for all methods, even with relatively short document sets. We also see our knowledge-guided generation technique (1) allows us to readily perform targeted analysis of MD-specific reasoning capabilities and (2) can be adapted quickly to account for new challenges and future modeling improvements.
- Abstract(参考訳): 自然言語処理の評価は大きな進歩を遂げており、その主な要因は強力な大規模言語モジュール(LLM)の普及である。
LLMの推論能力が急速に拡大しているため、新たな評価ベンチマークが優先される。
特に、マルチドキュメント推論(MD)はLLMの長文入力処理能力を考えると極めて関連性が高いが、この設定でモデル動作を厳格に検証するためのベンチマークはほとんど存在しない。
さらに、マルチドキュメント設定は、長い入力を注釈付けするコストがかかるため、ベンチマーク作成において歴史的に困難である。
本研究では,多文書推論のタスクにおけるLCM評価のための新しいデータセットであるMDBenchを紹介する。
特に、MDBenchは、新しい合成生成プロセスによって作成され、挑戦的な文書セットとそれに対応する質問応答(QA)例を制御および効率よく生成することができる。
提案手法は, MD固有の推論課題を誘発するために, LLMによる編集を通して, 構造的知識を凝縮し, 改良するものである。
次に、構造化された知識を自然なテキスト表面形式に変換し、文書セットと対応するQA例を生成する。
我々は、MDBENCHが比較的短い文書集合であっても、すべてのメソッドに重大な課題をもたらすことを発見した。
また,知識誘導型生成技術(1)により,MD固有の推論能力のターゲット分析が容易に行えるようになり,(2)新たな課題や将来のモデリング改善を考慮した迅速な適応が可能となった。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing [43.75154489681047]
MDS(Multi-Document Summarization)のためのテスト時間スケーリングを利用した新しいフレームワークを提案する。
提案手法では,様々なプロンプトを用いて複数の候補サマリーを生成し,アグリゲータと組み合わせて洗練されたサマリーを生成する。
また,本手法を効果的に評価するために,LCM-ACU(Consistency-Aware Preference)スコアとLLM-Content-Unit(LLM-ACU)スコアという2つの新しいLCMベースの指標を導入する。
論文 参考訳(メタデータ) (2025-02-27T23:34:47Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - MIR-Bench: Can Your LLM Recognize Complicated Patterns via Many-Shot In-Context Reasoning? [21.056519816264505]
我々は、パターン認識のための最初のマルチショットインコンテキスト推論ベンチマークであるMIR-Benchを提案する。
テキスト内推論における多くの新しい問題について検討し,多くの知見を得た。
論文 参考訳(メタデータ) (2025-02-14T06:05:12Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Editing Large Language Models: Problems, Methods, and Opportunities [51.903537096207]
本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。
本稿では,モデル編集に関わるタスク定義と課題の概観と,現在処理中の最も進歩的な手法の詳細な実証分析について述べる。
本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。
論文 参考訳(メタデータ) (2023-05-22T16:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。