論文の概要: PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts
- arxiv url: http://arxiv.org/abs/2508.09848v1
- Date: Wed, 13 Aug 2025 14:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.928979
- Title: PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts
- Title(参考訳): PreLUDE: 長期的コンテキストに対するグローバル理解と推論を必要とするベンチマーク
- Authors: Mo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou,
- Abstract要約: 本論文では,文字の前書きが本書の正統的な物語と一致しているかどうかを判断する作業を通じて,長文理解を評価するためのベンチマークであるPreLUDEを紹介する。
私たちのタスクは、既存のベンチマークよりもグローバルな理解と深い推論の需要が強くなります。
実験結果は、文脈学習、RAG、最先端のLLMによるドメイン内トレーニング、商用DeepResearchサービス、人間の遅れによる遅延といったタスクの課題を浮き彫りにした。
- 参考スコア(独自算出の注目度): 50.77454873238667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce PRELUDE, a benchmark for evaluating long-context understanding through the task of determining whether a character's prequel story is consistent with the canonical narrative of the original book. Our task poses a stronger demand for global comprehension and deep reasoning than existing benchmarks -- as the prequels are not part of the original story, assessing their plausibility typically requires searching and integrating information that is only indirectly related. Empirically, 88% of instances require evidence from multiple parts of the narrative. Experimental results highlight the challenge of our task: in-context learning, RAG and in-domain training with state-of-the-art LLMs, and commercial DeepResearch services, lag behind humans by >15%. A further human study reveals that models often produce correct answers with flawed reasoning, leading to an over 30% gap in reasoning accuracy compared to humans. These findings underscore the substantial room for improvement in long-context understanding and reasoning.
- Abstract(参考訳): 本論文では,文字の前書きが本書の正統的な物語と一致しているかどうかを判断する作業を通じて,長文理解を評価するためのベンチマークであるPreLUDEを紹介する。
私たちのタスクは、既存のベンチマークよりもグローバルな理解と深い推論の需要が強くなります。
経験的に、事例の88%は物語の複数の部分からの証拠を必要とする。
In-context Learning, RAG, in- domain training with state-of-the-art LLMs, and commercial DeepResearch services,lag behind human 15% by。
さらに人間による研究では、モデルが欠点のある推論で正しい解を生成することがしばしばあり、それによって推論の精度が人間に比べて30%以上低下することが明らかになった。
これらの知見は、長文理解と推論の大幅な改善の余地を浮き彫りにした。
関連論文リスト
- Can Large Language Models Infer Causal Relationships from Real-World Text? [2.602939322715435]
本稿では,大規模言語モデル(LLM)が実世界のテキストから因果関係を推定できるかどうかを検討する。
私たちの知る限りでは、私たちのベンチマークは、このタスクのための最初の実世界のデータセットです。
論文 参考訳(メタデータ) (2025-05-25T01:50:05Z) - Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP [32.19010113355365]
異なるタスクをコンテキスト長で膨らませることは、生産的ではないと我々は主張する。
我々は、長い文脈でそれらがより困難になる特性に基づいて、長い文脈の分類を解き放つことを提案する。
必要な情報が非常に長く、入力内で非常に拡散している、最も困難で興味深い設定は、非常に過度に探索されている、と結論付けている。
論文 参考訳(メタデータ) (2024-06-29T11:09:47Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。