論文の概要: SagaScale: A Realistic, Scalable, and High-Quality Long-Context Benchmark Built from Full-Length Novels
- arxiv url: http://arxiv.org/abs/2601.09723v1
- Date: Sat, 27 Dec 2025 12:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.70388
- Title: SagaScale: A Realistic, Scalable, and High-Quality Long-Context Benchmark Built from Full-Length Novels
- Title(参考訳): SagaScale: 完全な長編小説をベースとした,現実的でスケーラブルで高品質なロングコンテキストベンチマーク
- Authors: Guancheng Du, Yong Hu, Wenqing Wang, Yaming Yang, Jiaheng Gao,
- Abstract要約: SagaScaleは、フル長の小説から作られた、現実的でスケーラブルで高品質な長文のベンチマークである。
このベンチマークは、外部リソース(例えばウィキペディアページ)を使用して質問と回答のペアをキュレートする自動データ収集パイプラインを使用して構築されている。
- 参考スコア(独自算出の注目度): 5.756472596983042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown significant progress, but understanding long and complex documents remains challenging. Many long-context benchmarks have been proposed, but they face several limitations, including task realism, data scalability, and data quality. To this end, we introduce SagaScale, a realistic, scalable, and high-quality long-context benchmark built from full-length novels. The entire benchmark is constructed using an automated data collection pipeline that utilizes external resources (e.g., Wikipedia pages) to curate question-answer pairs. Critically, these external resources are provided only for benchmark construction and not during evaluation, which allows LLMs to curate complex questions that go beyond what they can answer during evaluation. SagaScale is also bilingual and offers the largest context length to date, with average token counts exceeding 250K for English novels and 320K for Chinese novels. Our evaluation across 12 frontier LLMs and three long-context methods -- Naïve RAG, Agentic RAG, and Long Context -- yields key insights, including: (1) Directly supplying the full context to the LLM can outperform other methods by a large margin; (2) Most LLMs still struggle with lengthy contexts, but Gemini-2.5-Pro stands out as an exception; and (3) Agentic RAG effectively addresses the retrieval bottleneck in Naïve RAG. Finally, we publicly release the SagaScale benchmark and our data collection codebase to facilitate future research.
- Abstract(参考訳): 大規模言語モデル(LLM)は大きな進歩を見せているが、長く複雑な文書を理解することは依然として困難である。
多くの長期コンテキストベンチマークが提案されているが、タスクリアリズム、データスケーラビリティ、データ品質など、いくつかの制限に直面している。
この目的のために、フル長の小説から構築された現実的でスケーラブルで高品質な長文ベンチマークであるSagaScaleを紹介します。
ベンチマーク全体は、外部リソース(例えばWikipediaページ)を使用して質問と回答のペアをキュレートする自動データ収集パイプラインを使用して構築されている。
重要な点として、これらの外部リソースはベンチマーク構築のためだけに提供され、評価中ではない。
また、サガスケールはバイリンガルで、これまでで最大の文脈を持ち、平均トークン数はイギリス小説では250K、中国小説では320Kである。
1) LLMに完全なコンテキストを直接供給すれば,他のメソッドよりも大きなマージンが得られます。(2) LLMは依然として長大なコンテキストに苦しむが,Gemini-2.5-Proは例外として指摘され,(3) Agentic RAGはNaeve RAGの検索ボトルネックを効果的に解決する。
最後に、将来の研究を容易にするために、SagaScaleベンチマークとデータ収集コードベースを公開しています。
関連論文リスト
- CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels [11.614599448394374]
CNNSumは,中国小説をベースとした多スケール長文要約ベンチマークである。
CNNSumは4つのサブセットにまたがって、合計695のサンプルで、長さは16kから128kである。
我々は、多数のLCMをベンチマークし、異常な出力タイプを要約するために詳細な人間の評価を行う。
論文 参考訳(メタデータ) (2024-12-03T20:35:57Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。
最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。
XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文 参考訳(メタデータ) (2024-04-08T12:29:07Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。