論文の概要: LooGLE: Can Long-Context Language Models Understand Long Contexts?
- arxiv url: http://arxiv.org/abs/2311.04939v2
- Date: Fri, 6 Sep 2024 05:06:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 20:53:23.503632
- Title: LooGLE: Can Long-Context Language Models Understand Long Contexts?
- Title(参考訳): LooGLE: ロングコンテキスト言語モデルはロングコンテキストを理解することができるか?
- Authors: Jiaqi Li, Mengmeng Wang, Zilong Zheng, Muhan Zhang,
- Abstract要約: LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
- 参考スコア(独自算出の注目度): 46.143956498529796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), despite their impressive performance in various language tasks, are typically limited to processing texts within context-window size. This limitation has spurred significant research efforts to enhance LLMs' long-context understanding with high-quality long-sequence benchmarks. However, prior datasets in this regard suffer from shortcomings, such as short context length compared to the context window of modern LLMs; outdated documents that have data leakage problems; and an emphasis on short dependency tasks rather than long dependency tasks. In this paper, we present LooGLE, a Long Context Generic Language Evaluation benchmark for LLMs' long context understanding. LooGLE features relatively new documents post-2022, with over 24,000 tokens per document and 6,000 newly generated questions spanning diverse domains. Human annotators meticulously crafted more than 1,100 high-quality question-answer pairs to meet the long dependency requirements. These pairs underwent thorough cross-validation, yielding the most precise assessment of LLMs' long dependency capabilities. The evaluation of eight state-of-the-art LLMs on LooGLE revealed key findings: (i) commercial models outperformed open-sourced models; (ii) LLMs excelled in short dependency tasks like short question-answering and cloze tasks but struggled with more intricate long dependency tasks; (iii) in-context learning and chaining thoughts offered only marginal improvements; (iv) retrieval-based techniques demonstrated substantial benefits for short question-answering, while strategies for extending context window length had limited impact on long context understanding. As such, LooGLE not only provides a systematic and comprehensive evaluation schema on long-context LLMs, but also sheds light on future development of enhanced models towards "true long-context understanding".
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な言語タスクにおける優れた性能にもかかわらず、典型的にはコンテキストウィンドウサイズのテキスト処理に限られる。
この制限により、LLMの長文理解を高品質なロングシーケンスベンチマークで強化するための重要な研究が進められた。
しかし、この点における以前のデータセットは、現代のLCMのコンテキストウィンドウと比較して短いコンテキスト長、データ漏洩問題のある古いドキュメント、長い依存性タスクよりも短い依存性タスクに重点を置いているといった欠点に悩まされている。
本稿では,LLMの長期文脈理解のためのLong Context Generic Language EvaluationベンチマークであるLooGLEを提案する。
LooGLEには2022年以降の比較的新しいドキュメントがあり、ドキュメント毎に24,000以上のトークンと、さまざまなドメインにまたがる6,000の新しい質問がある。
人間のアノテーションは、長い依存関係の要求を満たすために、1,100以上の高品質な質問応答ペアを慎重に作り上げた。
これらのペアは徹底的なクロスバリデーションを行い、LLMの長期依存能力を最も正確に評価した。
LooGLEにおける8つの最先端LCMの評価から,重要な知見が得られた。
(i)商用モデルがオープンソースモデルを上回っていること。
(ii)LLMは、短い質問回答やクローゼタスクのような短い依存タスクに優れていたが、より複雑な長期依存タスクに苦しんだ。
三 文脈学習及び連鎖思想は、限界的な改善のみを施した。
(4)検索に基づく手法は,文脈ウィンドウ長を延長する手法が長期的文脈理解に限られた影響を与えているのに対し,短時間の質問応答には有意な効果を示した。
そのため、LooGLEは長期コンテキストLLMの体系的かつ包括的な評価スキーマを提供するだけでなく、「真の長期コンテキスト理解」に向けた拡張モデルの開発にも光を当てている。
関連論文リスト
- FltLM: An Intergrated Long-Context Large Language Model for Effective Context Filtering and Understanding [32.197113821638936]
我々は,新しいLong-Context Large Language Model (FltLM)を提案する。
FltLMはコンテキストフィルタをソフトマスク機構に組み込み、関連する情報に集中するために無関係な内容を特定し、動的に排除する。
実験の結果,複雑なQAシナリオにおいて,FltLMは教師付き微調整法や検索法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T13:47:50Z) - DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。
探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。
私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文 参考訳(メタデータ) (2024-09-04T06:28:22Z) - LongIns: A Challenging Long-context Instruction-based Exam for LLMs [44.51209510772957]
大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。
本稿ではLongInsベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-25T14:31:26Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。
最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。
XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文 参考訳(メタデータ) (2024-04-08T12:29:07Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。
本稿では,ノベルQAの設計と構築について述べる。
NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。