論文の概要: LooGLE: Can Long-Context Language Models Understand Long Contexts?
- arxiv url: http://arxiv.org/abs/2311.04939v1
- Date: Wed, 8 Nov 2023 01:45:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 17:09:37.594192
- Title: LooGLE: Can Long-Context Language Models Understand Long Contexts?
- Title(参考訳): LooGLE:ロングコンテキスト言語モデルはロングコンテキストを理解することができるか?
- Authors: Jiaqi Li, Mengmeng Wang, Zilong Zheng, Muhan Zhang
- Abstract要約: LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
- 参考スコア(独自算出の注目度): 50.408957515411096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), despite their impressive performance in various
language tasks, are typically limited to processing texts within context-window
size. This limitation has spurred significant research efforts to enhance LLMs'
long-context understanding with high-quality long-sequence benchmarks. However,
prior datasets in this regard suffer from shortcomings, such as short context
length compared to the context window of modern LLMs; outdated documents that
have data leakage problems; and an emphasis on short dependency tasks rather
than long dependency tasks. In this paper, we present LooGLE, a Long Context
Generic Language Evaluation benchmark for LLMs' long context understanding.
LooGLE features relatively new documents post-2022, with over 24,000 tokens per
document and 6,000 newly generated questions spanning diverse domains. Human
annotators meticulously crafted more than 1,100 high-quality question-answer
pairs to meet the long dependency requirements. These pairs underwent thorough
cross-validation, yielding the most precise assessment of LLMs' long dependency
capabilities. The evaluation of eight state-of-the-art LLMs on LooGLE revealed
key findings: (i) commercial models outperformed open-sourced models; (ii) LLMs
excelled in short dependency tasks like short question-answering and cloze
tasks but struggled with more intricate long dependency tasks; (iii) in-context
learning and chaining thoughts offered only marginal improvements; (iv)
retrieval-based techniques demonstrated substantial benefits for short
question-answering, while strategies for extending context window length had
limited impact on long context understanding. As such, LooGLE not only provides
a systematic and comprehensive evaluation schema on long-context LLMs, but also
sheds light on future development of enhanced models towards "true long-context
understanding".
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な言語タスクにおける優れた性能にもかかわらず、典型的にはコンテキストウィンドウサイズのテキスト処理に限られる。
この制限により、LLMの長文理解を高品質なロングシーケンスベンチマークで強化するための重要な研究が進められた。
しかし、この点における以前のデータセットは、現代のLCMのコンテキストウィンドウと比較して短いコンテキスト長、データ漏洩問題のある古いドキュメント、長い依存性タスクよりも短い依存性タスクを重視するといった欠点に悩まされている。
本稿では,LLMの長期文脈理解のためのLong Context Generic Language EvaluationベンチマークであるLooGLEを提案する。
LooGLEには2022年以降の比較的新しいドキュメントがあり、ドキュメント毎に24,000以上のトークンと、さまざまなドメインにまたがる6,000の新しい質問がある。
人間のアノテーションは、長い依存関係の要求を満たすために、1100以上の高品質な質問応答ペアを慎重に作り上げた。
これらのペアは徹底的なクロスバリデーションを行い、LLMの長期依存能力を最も正確に評価した。
LooGLEにおける8つの最先端LCMの評価から,重要な知見が得られた。
(i)商用モデルがオープンソースモデルを上回っていること。
(ii) llmは、短い質問処理やクローズタスクのような短い依存関係タスクに優れていたが、より複雑な依存性タスクに苦しんだ。
(iii)文脈内学習と連鎖思考は、限界的な改善しか提供しなかった。
(iv) 検索に基づく手法は, 短い質問応答に有意な効果を示したが, コンテキストウインドウ長を延ばす戦略は, 長い文脈理解にはほとんど影響を与えなかった。
そのため、LooGLEは長期コンテキストLLMの体系的かつ包括的な評価スキーマを提供するだけでなく、「真の長期コンテキスト理解」に向けた拡張モデルの開発にも光を当てている。
関連論文リスト
- CLongEval: A Chinese Benchmark for Evaluating Long-Context Large
Language Models [52.092128293192914]
長文LLMを評価するための総合的な中国のベンチマークであるCLongEvalを提案する。
CLongEvalの特徴は,(1) 7つの異なるタスクと7,267のサンプルからなる十分なデータボリューム,(2)コンテキストウィンドウサイズ1Kから100Kのモデルに適応する広範適用性,(3)高品質,2,000以上の手動で注釈付き質問応答ペア,に加えて自動構築されたラベル。
論文 参考訳(メタデータ) (2024-03-06T07:43:43Z) - Small Language Model Is a Good Guide for Large Language Model in Chinese
Entity Relation Extraction [13.344709924683471]
本稿では,モデルコラボレーションフレームワークSLCoLMを提案する。
textit-Training-Guide-Predict' 戦略を用いて,事前学習言語モデル (PLM) と大規模言語モデル (LLM) の強みを組み合わせる。
関係型に富んだREデータセットに対する実験により,本論文のアプローチが長い関係型のREを促進することを示す。
論文 参考訳(メタデータ) (2024-02-22T08:26:56Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - MenatQA: A New Dataset for Testing the Temporal Comprehension and
Reasoning Abilities of Large Language Models [17.322480769274062]
大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。
本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
論文 参考訳(メタデータ) (2023-10-08T13:19:52Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling
Capacities of Large Language Models [151.503051479077]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context
Understanding [59.623007535233]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。