論文の概要: LongBench Pro: A More Realistic and Comprehensive Bilingual Long-Context Evaluation Benchmark
- arxiv url: http://arxiv.org/abs/2601.02872v1
- Date: Tue, 06 Jan 2026 10:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.881274
- Title: LongBench Pro: A More Realistic and Comprehensive Bilingual Long-Context Evaluation Benchmark
- Title(参考訳): LongBench Pro: より現実的で総合的なバイリンガルな長期評価ベンチマーク
- Authors: Ziyang Chen, Xing Wu, Junlong Jia, Chaochen Gao, Qi Fu, Debing Zhang, Songlin Hu,
- Abstract要約: LongBench Proは、英語と中国語で自然に発生する1500の長文サンプルのより現実的なベンチマークである。
タスク固有のメトリクスによるきめ細かい分析と、コンテキスト要求の多次元分類をサポートする。
LongBench Proは、長いコンテキスト理解を進めるための堅牢なテストベッドを提供する。
- 参考スコア(独自算出の注目度): 24.104346815675886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid expansion of context length in large language models (LLMs) has outpaced existing evaluation benchmarks. Current long-context benchmarks often trade off scalability and realism: synthetic tasks underrepresent real-world complexity, while fully manual annotation is costly to scale to extreme lengths and diverse scenarios. We present LongBench Pro, a more realistic and comprehensive bilingual benchmark of 1,500 naturally occurring long-context samples in English and Chinese spanning 11 primary tasks and 25 secondary tasks, with input lengths from 8k to 256k tokens. LongBench Pro supports fine-grained analysis with task-specific metrics and a multi-dimensional taxonomy of context requirement (full vs. partial dependency), length (six levels), and difficulty (four levels calibrated by model performance). To balance quality with scalability, we propose a Human-Model Collaborative Construction pipeline: frontier LLMs draft challenging questions and reference answers, along with design rationales and solution processes, to reduce the cost of expert verification. Experts then rigorously validate correctness and refine problematic cases. Evaluating 46 widely used long-context LLMs on LongBench Pro yields three findings: (1) long-context optimization contributes more to long-context comprehension than parameter scaling; (2) effective context length is typically shorter than the claimed context length, with pronounced cross-lingual misalignment; and (3) the "thinking" paradigm helps primarily models trained with native reasoning, while mixed-thinking designs offer a promising Pareto trade-off. In summary, LongBench Pro provides a robust testbed for advancing long-context understanding.
- Abstract(参考訳): 大規模言語モデル(LLM)における文脈長の急速な拡張は、既存の評価ベンチマークを上回っている。
合成タスクは現実世界の複雑さを過小評価するが、完全な手動アノテーションは極端な長さと多様なシナリオにスケールするのにコストがかかる。
提案するLongBench Proは、英語と中国語で自然に発生する1500の長文サンプルのより現実的で包括的なバイリンガルベンチマークであり、11の一次タスクと25の二次タスクにまたがっており、入力長は8kから256kトークンである。
LongBench Proは、タスク固有のメトリクスによるきめ細かい分析と、コンテキスト要求(完全 vs. 部分依存性)、長さ(6レベル)、難易度(モデルパフォーマンスによって調整された4レベル)の多次元分類をサポートする。
品質とスケーラビリティのバランスをとるために、我々はHuman-Model Collaborative Construction Pipelineを提案する。
専門家は厳格に正当性を検証し、問題のあるケースを精査する。
46の広範に使用されているLongBench Pro上での長文LLMの評価は、(1)長文の最適化はパラメータスケーリングよりも長文の理解に寄与する;(2)有効コンテキスト長は、言語間ミスアライメントと発音されるような要求コンテキスト長よりも一般的に短い;(3)"思考"パラダイムは、主にネイティブ推論で訓練されたモデルを支援する一方で、混合設計は、有望なパレートトレードオフを提供する。
要約すると、LongBench Proは長いコンテキスト理解を進めるための堅牢なテストベッドを提供する。
関連論文リスト
- A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - 100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability? [28.694112253150983]
リアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。
LongBenchのようなベンチマークは、しばしばモデルのベースライン能力とロングコンテキストのパフォーマンスを分離するための適切なメトリクスを提供しない。
長さ制御可能な長文ベンチマークと,ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
論文 参考訳(メタデータ) (2025-05-25T19:58:31Z) - LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks [74.96182906307654]
本稿では,LongBench v2を提案する。LongBench v2は,LLMが長期コンテキスト問題に対処する能力を評価するためのベンチマークである。
LongBench v2は、503の挑戦的な複数選択の質問で構成され、コンテキストは8kから200M語で、6つの主要なタスクカテゴリにまたがる。
我々は、品質と難易度を維持するために、自動レビュープロセスと手動レビュープロセスの両方を使用し、その結果15分間の制約の下で、人間の専門家は53.7%の精度しか達成できなかった。
論文 参考訳(メタデータ) (2024-12-19T18:59:17Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。
最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。
XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文 参考訳(メタデータ) (2024-04-08T12:29:07Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。