Fugu-MT 論文翻訳(概要): LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

論文の概要: LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

arxiv url: http://arxiv.org/abs/2308.14508v1
Date: Mon, 28 Aug 2023 11:53:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 14:05:13.547105
Title: LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding
Title（参考訳）: LongBench: コンテキスト理解のためのバイリンガルなマルチタスクベンチマーク
Authors: Yushi Bai, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang, Zhidian Huang, Zhengxiao Du, Xiao Liu, Aohan Zeng, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li
Abstract要約: LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
参考スコア（独自算出の注目度）: 59.623007535233
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although large language models (LLMs) demonstrate impressive performance for many language tasks, most of them can only handle texts a few thousand tokens long, limiting their applications on longer sequence inputs, such as books, reports, and codebases. Recent works have proposed methods to improve LLMs' long context capabilities by extending context windows and more sophisticated memory mechanisms. However, comprehensive benchmarks tailored for evaluating long context understanding are lacking. In this paper, we introduce LongBench, the first bilingual, multi-task benchmark for long context understanding, enabling a more rigorous evaluation of long context understanding. LongBench comprises 21 datasets across 6 task categories in both English and Chinese, with an average length of 6,711 words (English) and 13,386 characters (Chinese). These tasks cover key long-text application areas including single-doc QA, multi-doc QA, summarization, few-shot learning, synthetic tasks, and code completion. All datasets in LongBench are standardized into a unified format, allowing for effortless automatic evaluation of LLMs. Upon comprehensive evaluation of 8 LLMs on LongBench, we find that: (1) Commercial model (GPT-3.5-Turbo-16k) outperforms other open-sourced models, but still struggles on longer contexts. (2) Scaled position embedding and fine-tuning on longer sequences lead to substantial improvement on long context understanding. (3) Context compression technique such as retrieval brings improvement for model with weak ability on long contexts, but the performance still lags behind models that have strong long context understanding capability. The code and datasets are available at https://github.com/THUDM/LongBench.
Abstract（参考訳）: 大規模言語モデル(LLM)は多くの言語タスクにおいて素晴らしいパフォーマンスを示すが、ほとんどの言語は数千のトークンしか扱えないため、書籍、レポート、コードベースなどの長いシーケンスインプットにアプリケーションを制限している。近年、コンテキストウィンドウとより洗練されたメモリ機構を拡張してllmsの長いコンテキスト機能を改善する手法が提案されている。しかし、長期の文脈理解を評価するための包括的なベンチマークは欠落している。本稿では,長期文脈理解のための二言語型マルチタスクベンチマークであるLongBenchを紹介し,より厳密な長期文脈理解の評価を可能にする。 LongBenchは英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均長は6,711語(英語)と13,386文字(中国語)である。これらのタスクは、シングルdoc QA、マルチdoc QA、要約、数ショット学習、合成タスク、コード補完を含む主要な長文アプリケーション領域をカバーする。 LongBenchのすべてのデータセットは統一されたフォーマットに標準化されており、LLMの自動評価を可能にする。 1)商用モデル(GPT-3.5-Turbo-16k)は他のオープンソースモデルよりも優れているが、それでも長いコンテキストで苦戦している。 2)長いシーケンスにおける位置埋め込みと微調整は、長い文脈理解において大幅に改善される。 3)検索などのコンテキスト圧縮技術は,長文の文脈理解能力の弱いモデルに対して改善をもたらすが,長文理解能力の強いモデルにはまだ性能が遅れている。コードとデータセットはhttps://github.com/THUDM/LongBench.comで公開されている。

関連論文リスト

100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability? [28.694112253150983]
リアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。 LongBenchのようなベンチマークは、しばしばモデルのベースライン能力とロングコンテキストのパフォーマンスを分離するための適切なメトリクスを提供しない。長さ制御可能な長文ベンチマークと,ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
論文参考訳（メタデータ） (2025-05-25T19:58:31Z)
LongProc: Benchmarking Long-Context Language Models on Long Procedural Generation [74.89981179257194]
LongProc (Long Procedural Generation)は、Long-Context Language Model (LCLM) を評価するための新しいベンチマークである。 LongProcは、HTMLページから構造化された情報をTSVフォーマットに抽出し、旅行計画を作成する複雑な検索手順を実行する6つの手続き生成タスクで構成されている。我々は,LongProcの命令調整モデルと最近の推論モデルを含む23個のLCLMを,500,2K,8Kで設定された最大出力トークン数で3つの難易度で評価した。
論文参考訳（メタデータ） (2025-01-09T18:16:55Z)
MemLong: Memory-Augmented Retrieval for Long Text Modeling [37.49036666949963]
この研究はMemLong: Memory-Augmented Retrieval for Long Text Generationを紹介します。 MemLongは、非微分可能なret-mem'モジュールと部分的にトレーニング可能なデコーダのみの言語モデルを組み合わせる。複数の長文言語モデリングベンチマークに関する総合的な評価は、MemLongが他の最先端のLLMよりも一貫して優れていることを示している。
論文参考訳（メタデータ） (2024-08-30T02:01:56Z)
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文参考訳（メタデータ） (2024-07-16T17:59:06Z)
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文参考訳（メタデータ） (2024-06-25T09:42:56Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。 XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文参考訳（メタデータ） (2024-04-08T12:29:07Z)
LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。我々はSelf-Instructを使って長い命令追従データセットを構築した。我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文参考訳（メタデータ） (2024-01-31T18:29:39Z)
LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。 2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。 LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文参考訳（メタデータ） (2023-11-08T01:45:37Z)
BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。 5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文参考訳（メタデータ） (2023-09-23T11:36:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。