論文の概要: XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies
- arxiv url: http://arxiv.org/abs/2404.05446v1
- Date: Mon, 8 Apr 2024 12:29:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 14:34:53.533349
- Title: XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies
- Title(参考訳): XL$^2$Bench: 長距離依存による極長コンテキスト理解のためのベンチマーク
- Authors: Xuanfan Ni, Hengyi Cai, Xiaochi Wei, Shuaiqiang Wang, Dawei Yin, Piji Li,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。
最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。
XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
- 参考スコア(独自算出の注目度): 45.31042312867939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance across diverse tasks but are constrained by their small context window sizes. Various efforts have been proposed to expand the context window to accommodate even up to 200K input tokens. Meanwhile, building high-quality benchmarks with much longer text lengths and more demanding tasks to provide comprehensive evaluations is of immense practical interest to facilitate long context understanding research of LLMs. However, prior benchmarks create datasets that ostensibly cater to long-text comprehension by expanding the input of traditional tasks, which falls short to exhibit the unique characteristics of long-text understanding, including long dependency tasks and longer text length compatible with modern LLMs' context window size. In this paper, we introduce a benchmark for extremely long context understanding with long-range dependencies, XL$^2$Bench, which includes three scenarios: Fiction Reading, Paper Reading, and Law Reading, and four tasks of increasing complexity: Memory Retrieval, Detailed Understanding, Overall Understanding, and Open-ended Generation, covering 27 subtasks in English and Chinese. It has an average length of 100K+ words (English) and 200K+ characters (Chinese). Evaluating six leading LLMs on XL$^2$Bench, we find that their performance significantly lags behind human levels. Moreover, the observed decline in performance across both the original and enhanced datasets underscores the efficacy of our approach to mitigating data contamination.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。
最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。
一方,LLMの長期的文脈理解研究を促進するために,テキスト長が長い高品質なベンチマークの構築や,包括的な評価を行うためのタスクの要求が極めて重要である。
しかし、以前のベンチマークでは、従来のタスクの入力を拡大することで、従来のLLMのコンテキストウィンドウサイズと互換性のある長いテキスト長を含む、長いテキスト理解の独特な特徴を示すために、明らかに長文理解に影響を及ぼすデータセットが作成されている。
本稿では,長距離依存による極端に長い文脈理解のためのベンチマーク,XL$^2$Bench,辞書読解,論文読解,法律読解の3つのシナリオ,複雑さを増大させる4つのタスク,メモリ検索,詳細な理解,網羅的理解,オープンエンドジェネレーションの4つを紹介し,27のサブタスクを英語と中国語でカバーする。
平均長は100K+(英語)と200K+(中国語)である。
XL$^2$Bench上の6つのLLMを評価したところ,その性能は人体よりも著しく遅れていることがわかった。
さらに、元のデータセットと強化データセットの両方で観測された性能低下は、データの汚染軽減へのアプローチの有効性を裏付けるものである。
関連論文リスト
- Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Long-context LLMs Struggle with Long In-context Learning [39.84597097614607]
大規模言語モデル(LLM)は32Kトークンを超える長いシーケンスを扱うために大きな進歩を遂げた。
本研究は,極端ラベル分類の領域における長い文脈内学習に焦点を当てた特殊なベンチマーク(LongICLBench)を提案する。
論文 参考訳(メタデータ) (2024-04-02T15:59:11Z) - $\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens [64.08660301017302]
現在、この長期コンテキスト機能を評価するための標準ベンチマークが欠落している。
$infty$Benchは、平均データ長が100Kを超える最初のベンチマークである。
その結果,100K以上のコンテキストを効果的に処理するには,既存の長期的LLMの大幅な進歩が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:30:29Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [50.408957515411096]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context
Understanding [59.623007535233]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。