Fugu-MT 論文翻訳(概要): SagaScale: A Realistic, Scalable, and High-Quality Long-Context Benchmark Built from Full-Length Novels

論文の概要: SagaScale: A Realistic, Scalable, and High-Quality Long-Context Benchmark Built from Full-Length Novels

arxiv url: http://arxiv.org/abs/2601.09723v1
Date: Sat, 27 Dec 2025 12:19:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-25 16:54:51.70388
Title: SagaScale: A Realistic, Scalable, and High-Quality Long-Context Benchmark Built from Full-Length Novels
Title（参考訳）: SagaScale: 完全な長編小説をベースとした,現実的でスケーラブルで高品質なロングコンテキストベンチマーク
Authors: Guancheng Du, Yong Hu, Wenqing Wang, Yaming Yang, Jiaheng Gao,
Abstract要約: SagaScaleは、フル長の小説から作られた、現実的でスケーラブルで高品質な長文のベンチマークである。このベンチマークは、外部リソース(例えばウィキペディアページ)を使用して質問と回答のペアをキュレートする自動データ収集パイプラインを使用して構築されている。
参考スコア（独自算出の注目度）: 5.756472596983042
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have shown significant progress, but understanding long and complex documents remains challenging. Many long-context benchmarks have been proposed, but they face several limitations, including task realism, data scalability, and data quality. To this end, we introduce SagaScale, a realistic, scalable, and high-quality long-context benchmark built from full-length novels. The entire benchmark is constructed using an automated data collection pipeline that utilizes external resources (e.g., Wikipedia pages) to curate question-answer pairs. Critically, these external resources are provided only for benchmark construction and not during evaluation, which allows LLMs to curate complex questions that go beyond what they can answer during evaluation. SagaScale is also bilingual and offers the largest context length to date, with average token counts exceeding 250K for English novels and 320K for Chinese novels. Our evaluation across 12 frontier LLMs and three long-context methods -- Naïve RAG, Agentic RAG, and Long Context -- yields key insights, including: (1) Directly supplying the full context to the LLM can outperform other methods by a large margin; (2) Most LLMs still struggle with lengthy contexts, but Gemini-2.5-Pro stands out as an exception; and (3) Agentic RAG effectively addresses the retrieval bottleneck in Naïve RAG. Finally, we publicly release the SagaScale benchmark and our data collection codebase to facilitate future research.
Abstract（参考訳）: 大規模言語モデル(LLM)は大きな進歩を見せているが、長く複雑な文書を理解することは依然として困難である。多くの長期コンテキストベンチマークが提案されているが、タスクリアリズム、データスケーラビリティ、データ品質など、いくつかの制限に直面している。この目的のために、フル長の小説から構築された現実的でスケーラブルで高品質な長文ベンチマークであるSagaScaleを紹介します。ベンチマーク全体は、外部リソース(例えばWikipediaページ)を使用して質問と回答のペアをキュレートする自動データ収集パイプラインを使用して構築されている。重要な点として、これらの外部リソースはベンチマーク構築のためだけに提供され、評価中ではない。また、サガスケールはバイリンガルで、これまでで最大の文脈を持ち、平均トークン数はイギリス小説では250K、中国小説では320Kである。 1) LLMに完全なコンテキストを直接供給すれば,他のメソッドよりも大きなマージンが得られます。(2) LLMは依然として長大なコンテキストに苦しむが,Gemini-2.5-Proは例外として指摘され,(3) Agentic RAGはNaeve RAGの検索ボトルネックを効果的に解決する。最後に、将来の研究を容易にするために、SagaScaleベンチマークとデータ収集コードベースを公開しています。

関連論文リスト

Scaling Instruction-Tuned LLMs to Million-Token Contexts via Hierarchical Synthetic Data Generation [15.975325252309554]
本稿では,大規模言語モデルのコンテキストウィンドウを効率的に拡張するための新しい学習後合成データ生成戦略を提案する。我々のアプローチは、利用可能な実世界のデータの長さに制約されずに、任意に長いコンテキスト長まで強固に拡張する。我々は,RULERベンチマークとInfiniteBenchにおいて,最大100万トークンのコンテキスト長を持つモデルの有効性を実証した。
論文参考訳（メタデータ） (2025-04-17T04:46:57Z)
LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。 LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。 RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文参考訳（メタデータ） (2025-02-14T08:04:22Z)
CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels [11.614599448394374]
CNNSumは,中国小説をベースとした多スケール長文要約ベンチマークである。 CNNSumは4つのサブセットにまたがって、合計695のサンプルで、長さは16kから128kである。我々は、多数のLCMをベンチマークし、異常な出力タイプを要約するために詳細な人間の評価を行う。
論文参考訳（メタデータ） (2024-12-03T20:35:57Z)
NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文参考訳（メタデータ） (2024-07-16T17:59:06Z)
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文参考訳（メタデータ） (2024-06-25T09:42:56Z)
One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文参考訳（メタデータ） (2024-06-24T02:03:57Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。 XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文参考訳（メタデータ） (2024-04-08T12:29:07Z)
NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
我々は,大規模言語モデル(LLM)を複雑で拡張された物語で評価するためのベンチマークであるNovellQAを紹介する。 NovelQAは、複雑さ、長さ、物語のコヒーレンスをユニークなブレンドとして提供し、深いテキスト理解を評価するのに理想的なツールである。ノベルQAにおける長文LLMの評価は,長文LLMの長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文の長文長文長文長文長文の長文
論文参考訳（メタデータ） (2024-03-18T17:32:32Z)
LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文参考訳（メタデータ） (2023-08-28T11:53:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。