論文の概要: MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Documents
- arxiv url: http://arxiv.org/abs/2508.11133v1
- Date: Fri, 15 Aug 2025 00:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.700238
- Title: MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Documents
- Title(参考訳): MoNaCo: 大量のドキュメントにまたがって推論する、より自然で複雑な質問
- Authors: Tomer Wolfson, Harsh Trivedi, Mor Geva, Yoav Goldberg, Dan Roth, Tushar Khot, Ashish Sabharwal, Reut Tsarfaty,
- Abstract要約: MoNaCoは、1,315の自然で複雑な質問のベンチマークであり、解決には数十、数百の中間ステップが必要である。
我々の結果は、現実世界の情報検索の複雑さと厳密さに対処する推論モデルの必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 123.13449955602653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are emerging as a go-to tool for querying information. However, current LLM benchmarks rarely feature natural questions that are both information-seeking as well as genuinely time-consuming for humans. To address this gap we introduce MoNaCo, a benchmark of 1,315 natural and complex questions that require dozens, and at times hundreds, of intermediate steps to solve -- far more than any existing QA benchmark. To build MoNaCo, we developed a decomposed annotation pipeline to elicit and manually answer natural time-consuming questions at scale. Frontier LLMs evaluated on MoNaCo achieve at most 61.2% F1, hampered by low recall and hallucinations. Our results underscore the need for reasoning models that better handle the complexity and sheer breadth of real-world information-seeking questions -- with MoNaCo providing an effective resource for tracking such progress. The MONACO benchmark, codebase, prompts and models predictions are publicly available at: https://tomerwolgithub.github.io/monaco
- Abstract(参考訳): 大規模言語モデル(LLM)は、情報クエリのためのゴーツーツールとして登場している。
しかし、現在のLLMベンチマークでは、情報検索だけでなく、人間にとって本当に時間を要するような自然な質問がほとんどない。
このギャップに対処するために、我々は1315の自然で複雑な質問のベンチマークであるMoNaCoを紹介します。
MoNaCoを構築するために、分解されたアノテーションパイプラインを開発しました。
MoNaCoで評価されたフロンティアLSMは61.2%のF1を達成し、低いリコールと幻覚によって妨げられる。
われわれの結果は、現実世界の情報検索の難しさをうまく扱えるような推論モデルの必要性を浮き彫りにしている。
MONACOベンチマーク、コードベース、プロンプト、モデル予測は、https://tomerwolgithub.github.io/monacoで公開されている。
関連論文リスト
- Can Multimodal Large Language Models Understand Spatial Relations? [16.76001474065412]
我々はCOCO 2017をベースとした人間アノテーション付き空間関係推論ベンチマークであるSpatialMQAを紹介する。
その結果、現在の最先端MLLMの精度は48.14%に過ぎず、人間レベルの精度は98.40%をはるかに下回っている。
論文 参考訳(メタデータ) (2025-05-25T07:37:34Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - FanOutQA: A Multi-Hop, Multi-Document Question Answering Benchmark for Large Language Models [37.34801677290571]
FanOutQA(ファンアウトQA)は、ウィキペディアによる高品質な質問応答ペアと人間による注釈付き分解のデータセットである。
GPT-4、LLaMA 2、Claude-2.1、Mixtral-8x7Bを含む、データセットとベンチマーク7 LLMの3つのベンチマーク設定を定式化します。
論文 参考訳(メタデータ) (2024-02-21T20:30:45Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - Is a Question Decomposition Unit All We Need? [20.66688303609522]
モデルを解くのが比較的容易な、より単純な質問の集合に、人間が難解な質問を分解できるかどうかを検討する。
我々は、様々な推論形式を含むデータセットを解析し、モデルの性能を大幅に改善することは実際に可能であることを発見した。
以上の結果から,Human-in-the-loop Question Decomposition (HQD) が大規模LM構築の代替となる可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-25T07:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。