論文の概要: L-Eval: Instituting Standardized Evaluation for Long Context Language
Models
- arxiv url: http://arxiv.org/abs/2307.11088v1
- Date: Thu, 20 Jul 2023 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 11:41:30.595583
- Title: L-Eval: Instituting Standardized Evaluation for Long Context Language
Models
- Title(参考訳): l-eval:long context language modelの標準化評価
- Authors: Chenxin An, Shansan Gong, Ming Zhong, Mukai Li, Jun Zhang, Lingpeng
Kong, and Xipeng Qiu
- Abstract要約: 長い文脈言語モデルは、1ターンの長い入力(例えば、論文の要約)を処理し、より広範な歴史と会話することができる。
L-Evalは411の長いドキュメントと2000以上のクエリ応答ペアを手動でアノテートし、著者によってチェックされる。
私たちの調査結果は、オープンソースモデルは一般的に商用モデルよりも遅れているものの、それでも素晴らしいパフォーマンスを示していることを示唆しています。
- 参考スコア(独自算出の注目度): 45.80203385878619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been growing interest in extending the context length of
instruction-following models in order to effectively process single-turn long
input (e.g. summarizing a paper) and conversations with more extensive
histories. While proprietary models such as GPT-4 and Claude have demonstrated
considerable advancements in handling tens of thousands of tokens of context,
open-sourced models are still in the early stages of experimentation. It also
remains unclear whether developing these long context models can offer
substantial gains on practical downstream tasks over retrieval-based methods or
models simply trained on chunked contexts. To address this challenge, we
propose to institute standardized evaluation for long context language models.
Concretely, we develop L-Eval which contains 411 long documents and over 2,000
query-response pairs manually annotated and checked by the authors encompassing
areas such as law, finance, school lectures, lengthy conversations, news,
long-form novels, and meetings. L-Eval also adopts diverse evaluation methods
and instruction styles, enabling a more reliable assessment of Long Context
Language Models (LCLMs). Our findings indicate that while open-source models
typically lag behind their commercial counterparts, they still exhibit
impressive performance. LLaMA2 achieves the best results (win 45\% vs
turbo-16k) on open-ended tasks with only 4k context length and ChatGLM2
achieves the best results on closed-ended tasks with 8k input tokens. We
release our new evaluation suite, code, and all generation results including
predictions from all open-sourced LCLMs, GPT4-32k, Cluade-100k at
{\url{https://github.com/OpenLMLab/LEval}}.
- Abstract(参考訳): 近年、単ターンの長い入力(例えば論文の要約)やより広範な歴史との会話を効果的に処理するために、命令追従モデルのコンテキストの長さを拡張することへの関心が高まっている。
GPT-4やClaudeのようなプロプライエタリなモデルは、数万のコンテキストトークンを扱う上でかなりの進歩を見せているが、オープンソースモデルは実験の初期段階にある。
これらの長いコンテキストモデルの開発が、チャンク化されたコンテキストでのみ訓練された検索ベースの方法やモデルよりも、実用的な下流タスクにかなりの利益をもたらすかどうかも、まだ不明である。
本稿では,この課題に対処するために,ロングコンテキスト言語モデルの標準化評価を行う。
具体的には,法律,金融,学校講義,長い会話,ニュース,長文小説,会議などの分野の著者が手作業で注釈とチェックを行った2000以上の質問応答ペアを含むl-evalを開発した。
L-Evalは様々な評価手法や命令スタイルを採用しており、Long Context Language Models (LCLM) の信頼性を高めている。
私たちの調査では、オープンソースモデルは一般的に商用モデルよりも遅れているものの、それでも素晴らしいパフォーマンスを示しています。
LLaMA2は、4kコンテキスト長しか持たないオープンエンドタスクにおいて最良の結果(ウィン45\%対ターボ16k)を達成し、ChatGLM2は8k入力トークンを持つクローズドエンドタスクにおいて最高の結果を得る。
オープンソースLCLM, GPT4-32k, Cluade-100k at {\url{https://github.com/OpenLMLab/LEval}} の予測を含む,新たな評価スイート,コード,およびすべての生成結果をリリースする。
関連論文リスト
- LongIns: A Challenging Long-context Instruction-based Exam for LLMs [44.51209510772957]
大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。
本稿ではLongInsベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-25T14:31:26Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - ELITR-Bench: A Meeting Assistant Benchmark for Long-Context Language Models [25.74741863885925]
本稿では,現実的な会議支援シナリオに基づく長期コンテキストモデルのための新しいベンチマークを提案する。
ELITR-Benchという名前のベンチマークでは、既存のERLITRコーパスの書き起こしを271の手作業による質問と、その真真正な回答で強化しています。
以上の結果から,GPT-4の評価スコアは人間の判断値と相関するが,3つ以上の評価値と区別できる能力は限定的である可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-29T16:13:31Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。