論文の概要: LongBench: A Bilingual, Multitask Benchmark for Long Context
Understanding
- arxiv url: http://arxiv.org/abs/2308.14508v1
- Date: Mon, 28 Aug 2023 11:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 14:05:13.547105
- Title: LongBench: A Bilingual, Multitask Benchmark for Long Context
Understanding
- Title(参考訳): LongBench: コンテキスト理解のためのバイリンガルなマルチタスクベンチマーク
- Authors: Yushi Bai, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang, Zhidian
Huang, Zhengxiao Du, Xiao Liu, Aohan Zeng, Lei Hou, Yuxiao Dong, Jie Tang,
Juanzi Li
- Abstract要約: LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
- 参考スコア(独自算出の注目度): 59.623007535233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models (LLMs) demonstrate impressive performance for
many language tasks, most of them can only handle texts a few thousand tokens
long, limiting their applications on longer sequence inputs, such as books,
reports, and codebases. Recent works have proposed methods to improve LLMs'
long context capabilities by extending context windows and more sophisticated
memory mechanisms. However, comprehensive benchmarks tailored for evaluating
long context understanding are lacking. In this paper, we introduce LongBench,
the first bilingual, multi-task benchmark for long context understanding,
enabling a more rigorous evaluation of long context understanding. LongBench
comprises 21 datasets across 6 task categories in both English and Chinese,
with an average length of 6,711 words (English) and 13,386 characters
(Chinese). These tasks cover key long-text application areas including
single-doc QA, multi-doc QA, summarization, few-shot learning, synthetic tasks,
and code completion. All datasets in LongBench are standardized into a unified
format, allowing for effortless automatic evaluation of LLMs. Upon
comprehensive evaluation of 8 LLMs on LongBench, we find that: (1) Commercial
model (GPT-3.5-Turbo-16k) outperforms other open-sourced models, but still
struggles on longer contexts. (2) Scaled position embedding and fine-tuning on
longer sequences lead to substantial improvement on long context understanding.
(3) Context compression technique such as retrieval brings improvement for
model with weak ability on long contexts, but the performance still lags behind
models that have strong long context understanding capability. The code and
datasets are available at https://github.com/THUDM/LongBench.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの言語タスクにおいて素晴らしいパフォーマンスを示すが、ほとんどの言語は数千のトークンしか扱えないため、書籍、レポート、コードベースなどの長いシーケンスインプットにアプリケーションを制限している。
近年、コンテキストウィンドウとより洗練されたメモリ機構を拡張してllmsの長いコンテキスト機能を改善する手法が提案されている。
しかし、長期の文脈理解を評価するための包括的なベンチマークは欠落している。
本稿では,長期文脈理解のための二言語型マルチタスクベンチマークであるLongBenchを紹介し,より厳密な長期文脈理解の評価を可能にする。
LongBenchは英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均長は6,711語(英語)と13,386文字(中国語)である。
これらのタスクは、シングルdoc QA、マルチdoc QA、要約、数ショット学習、合成タスク、コード補完を含む主要な長文アプリケーション領域をカバーする。
LongBenchのすべてのデータセットは統一されたフォーマットに標準化されており、LLMの自動評価を可能にする。
1)商用モデル(GPT-3.5-Turbo-16k)は他のオープンソースモデルよりも優れているが、それでも長いコンテキストで苦戦している。
2)長いシーケンスにおける位置埋め込みと微調整は、長い文脈理解において大幅に改善される。
3)検索などのコンテキスト圧縮技術は,長文の文脈理解能力の弱いモデルに対して改善をもたらすが,長文理解能力の強いモデルにはまだ性能が遅れている。
コードとデータセットはhttps://github.com/THUDM/LongBench.comで公開されている。
関連論文リスト
- CLongEval: A Chinese Benchmark for Evaluating Long-Context Large
Language Models [52.092128293192914]
長文LLMを評価するための総合的な中国のベンチマークであるCLongEvalを提案する。
CLongEvalの特徴は,(1) 7つの異なるタスクと7,267のサンプルからなる十分なデータボリューム,(2)コンテキストウィンドウサイズ1Kから100Kのモデルに適応する広範適用性,(3)高品質,2,000以上の手動で注釈付き質問応答ペア,に加えて自動構築されたラベル。
論文 参考訳(メタデータ) (2024-03-06T07:43:43Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [50.408957515411096]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context
Evaluation Benchmark for Large Language Models [61.06694491246026]
M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。
M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
論文 参考訳(メタデータ) (2023-10-30T03:11:30Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling
Capacities of Large Language Models [151.503051479077]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。