論文の概要: CorpusQA: A 10 Million Token Benchmark for Corpus-Level Analysis and Reasoning
- arxiv url: http://arxiv.org/abs/2601.14952v1
- Date: Wed, 21 Jan 2026 12:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.363008
- Title: CorpusQA: A 10 Million Token Benchmark for Corpus-Level Analysis and Reasoning
- Title(参考訳): CorpusQA: 企業レベルの分析と推論のための1000万のトークンベンチマーク
- Authors: Zhiyuan Lu, Chenliang Li, Yingcheng Shi, Weizhou Shen, Ming Yan, Fei Huang,
- Abstract要約: 我々は、新しいデータ合成フレームワークによって生成された1000万のトークンをスケーリングする新しいベンチマークであるCorpusQAを紹介した。
合成データの微調整はLLMの一般的な長文推論能力を効果的に向上させることを示す。
メモリ拡張型エージェントアーキテクチャは,より堅牢な代替手段であることを示す。
- 参考スコア(独自算出の注目度): 48.56088080889236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models now handle million-token contexts, their capacity for reasoning across entire document repositories remains largely untested. Existing benchmarks are inadequate, as they are mostly limited to single long texts or rely on a "sparse retrieval" assumption-that answers can be derived from a few relevant chunks. This assumption fails for true corpus-level analysis, where evidence is highly dispersed across hundreds of documents and answers require global integration, comparison, and statistical aggregation. To address this critical gap, we introduce CorpusQA, a new benchmark scaling up to 10 million tokens, generated via a novel data synthesis framework. By decoupling reasoning from textual representation, this framework creates complex, computation-intensive queries with programmatically guaranteed ground-truth answers, challenging systems to perform holistic reasoning over vast, unstructured text without relying on fallible human annotation. We further demonstrate the utility of our framework beyond evaluation, showing that fine-tuning on our synthesized data effectively enhances an LLM's general long-context reasoning capabilities. Extensive experiments reveal that even state-of-the-art long-context LLMs struggle as input length increases, and standard retrieval-augmented generation systems collapse entirely. Our findings indicate that memory-augmented agentic architectures offer a more robust alternative, suggesting a critical shift is needed from simply extending context windows to developing advanced architectures for global information synthesis.
- Abstract(参考訳): 大規模言語モデルは今や百万件のコンテキストを扱うが、ドキュメントリポジトリ全体の推論能力はほとんどテストされていない。
既存のベンチマークは不十分で、ほとんどは単一の長いテキストに制限されているか、あるいは"スパース検索"という仮定に依存している。
この仮定は真のコーパスレベルの分析では失敗し、証拠は数百の文書に分散し、答えはグローバルな統合、比較、統計集約を必要とする。
この重要なギャップに対処するために、新しいデータ合成フレームワークによって生成される1000万のトークンをスケーリングする新しいベンチマークであるCorpusQAを紹介します。
テキスト表現から推論を分離することにより、このフレームワークは、プログラム的に保証された基礎的真実解を伴う複雑で計算集約的なクエリを生成し、フォールブルな人間のアノテーションに頼ることなく、膨大な非構造化テキストに対して全体論的推論を行うシステムに挑戦する。
さらに,LLMの汎用長文推論能力を効果的に向上することを示すため,評価以上のフレームワークの有用性を実証する。
大規模な実験により、入力長が増加するにつれて、最先端の長文LLMでさえ苦労し、標準的な検索拡張生成システムが完全に崩壊することが明らかとなった。
メモリ拡張型エージェントアーキテクチャは,単にコンテキストウィンドウの拡張から,グローバル情報合成のための高度なアーキテクチャ開発への重要なシフトが必要であることを示唆する。
関連論文リスト
- DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - BoundRL: Efficient Structured Text Segmentation through Reinforced Boundary Generation [26.825801831400003]
BoundRLは長い構造化テキストに対してトークンレベルのテキストセグメンテーションとラベル予測を行う。
セグメントごとに完全なコンテンツを生成する代わりに、開始トークンのシーケンスだけを生成する。
オリジナルテキスト内にこれらのトークンを配置することで、完全な内容を再構築する。
論文 参考訳(メタデータ) (2025-10-23T02:56:10Z) - LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.89404347890662]
SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。
本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T11:36:09Z) - Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - ELITE: Embedding-Less retrieval with Iterative Text Exploration [5.8851517822935335]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
長期のコンテキスト制約を維持する能力は、ドキュメントレベルやマルチターンタスクのパフォーマンスを制限します。
論文 参考訳(メタデータ) (2025-05-17T08:48:43Z) - Reasoning with LLMs for Zero-Shot Vulnerability Detection [0.9208007322096533]
textbfVulnSageは,多種多様な大規模オープンソースソフトウェアプロジェクトから収集した,総合的な評価フレームワークである。
このフレームワークは、関数レベル、ファイルレベル、関数間の複数の粒度解析をサポートする。
Baseline、Chain-of-context、Think、Think & verifyの4つの異なるゼロショットプロンプト戦略を採用している。
論文 参考訳(メタデータ) (2025-03-22T23:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。