論文の概要: LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks
- arxiv url: http://arxiv.org/abs/2412.15204v1
- Date: Thu, 19 Dec 2024 18:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:33:14.417669
- Title: LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks
- Title(参考訳): LongBench v2:Realistic Long-context Multitaskの理解と推論に向けて
- Authors: Yushi Bai, Shangqing Tu, Jiajie Zhang, Hao Peng, Xiaozhi Wang, Xin Lv, Shulin Cao, Jiazheng Xu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li,
- Abstract要約: 本稿では,LongBench v2を提案する。LongBench v2は,LLMが長期コンテキスト問題に対処する能力を評価するためのベンチマークである。
LongBench v2は、503の挑戦的な複数選択の質問で構成され、コンテキストは8kから200M語で、6つの主要なタスクカテゴリにまたがる。
我々は、品質と難易度を維持するために、自動レビュープロセスと手動レビュープロセスの両方を使用し、その結果15分間の制約の下で、人間の専門家は53.7%の精度しか達成できなかった。
- 参考スコア(独自算出の注目度): 74.96182906307654
- License:
- Abstract: This paper introduces LongBench v2, a benchmark designed to assess the ability of LLMs to handle long-context problems requiring deep understanding and reasoning across real-world multitasks. LongBench v2 consists of 503 challenging multiple-choice questions, with contexts ranging from 8k to 2M words, across six major task categories: single-document QA, multi-document QA, long in-context learning, long-dialogue history understanding, code repository understanding, and long structured data understanding. To ensure the breadth and the practicality, we collect data from nearly 100 highly educated individuals with diverse professional backgrounds. We employ both automated and manual review processes to maintain high quality and difficulty, resulting in human experts achieving only 53.7% accuracy under a 15-minute time constraint. Our evaluation reveals that the best-performing model, when directly answers the questions, achieves only 50.1% accuracy. In contrast, the o1-preview model, which includes longer reasoning, achieves 57.7%, surpassing the human baseline by 4%. These results highlight the importance of enhanced reasoning ability and scaling inference-time compute to tackle the long-context challenges in LongBench v2. The project is available at https://longbench2.github.io.
- Abstract(参考訳): 本稿では,LongBench v2について紹介する。LongBench v2は,LLMが実世界のマルチタスクに対して深い理解と推論を必要とする長期コンテキスト問題に対処する能力を評価するためのベンチマークである。
LongBench v2は503の挑戦的な複数選択質問で構成され、コンテキストは8kから2Mの6つの主要なタスクカテゴリ(単一ドキュメントQA、複数ドキュメントQA、長いコンテキスト内学習、長い対話履歴理解、コードリポジトリ理解、長い構造化データ理解)にまたがる。
広さと実用性を確保するため,さまざまな専門的背景を持つ100人近い高度に教育された個人からデータを収集する。
我々は、品質と難易度を維持するために、自動レビュープロセスと手動レビュープロセスの両方を使用し、その結果15分間の制約の下で、人間の専門家は53.7%の精度しか達成できなかった。
評価の結果,最も優れたモデルでは,質問に直接答えると50.1%の精度しか得られないことがわかった。
対照的に、より長い推論を含むo1-previewモデルは57.7%に達し、人間のベースラインを4%上回っている。
これらの結果は,LongBench v2の長文問題に対処するために,推論能力の向上と推論時間のスケーリングの重要性を強調した。
このプロジェクトはhttps://longbench2.github.ioで公開されている。
関連論文リスト
- How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.10376440302076]
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。
130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。
14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
論文 参考訳(メタデータ) (2024-07-01T17:59:26Z) - CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models [45.892014195594314]
長文LLMを評価するための総合的な中国のベンチマークであるCLongEvalを提案する。
CLongEvalの特徴は,(1) 7つの異なるタスクと7,267のサンプルからなる十分なデータボリューム,(2)コンテキストウィンドウサイズ1Kから100Kのモデルに適応する広範適用性,(3)高品質,2,000以上の手動で注釈付き質問応答ペア,に加えて自動構築されたラベル。
論文 参考訳(メタデータ) (2024-03-06T07:43:43Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。