論文の概要: L-Eval: Instituting Standardized Evaluation for Long Context Language
Models
- arxiv url: http://arxiv.org/abs/2307.11088v3
- Date: Wed, 4 Oct 2023 10:04:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 21:17:37.896894
- Title: L-Eval: Instituting Standardized Evaluation for Long Context Language
Models
- Title(参考訳): l-eval:long context language modelの標準化評価
- Authors: Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li, Jun
Zhang, Lingpeng Kong and Xipeng Qiu
- Abstract要約: 長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
- 参考スコア(独自算出の注目度): 91.05820785008527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been growing interest in extending the context length of
large language models (LLMs), aiming to effectively process long inputs of one
turn or conversations with more extensive histories. While proprietary models
such as GPT-4 and Claude can largely preserve the reasoning ability in an
extended context, open-source models are still progressing through the early
stages of development. To bridge this gap, we propose L-Eval to institute a
more standardized evaluation for long context language models (LCLMs)
addressing two key aspects: dataset construction and evaluation metrics. On the
one hand, we build a new evaluation suite containing 20 sub-tasks, 508 long
documents, and over 2,000 human-labeled query-response pairs encompassing
diverse question styles, domains, and input length (3k$\sim$200k tokens). On
the other hand, we investigate the effectiveness in evalution metrics for
LCLMs. Results show that popular n-gram matching metrics generally can not
correlate well with human judgment, and thus we strongly advocate for
length-instruction-enhanced (LIE) evaluation and employing LLM judges. We
conducted a comprehensive study of 4 popular commercial LLMs and 12 open-source
counterparts using the L-Eval benchmark. Our empirical findings offer useful
insights into the study of LCLMs and lay the groundwork for the development of
more principled evaluation of these models.
- Abstract(参考訳): 近年,大きな言語モデル (LLM) の文脈長の拡張への関心が高まっており,一ターンの長い入力や,より広範な歴史を持つ会話を効果的に処理することを目指している。
GPT-4やClaudeのようなプロプライエタリなモデルは、拡張されたコンテキストで推論能力を維持することができるが、オープンソースモデルはまだ開発の初期段階にある。
このギャップを埋めるため、L-Evalは、データセット構築と評価指標の2つの主要な側面に対処する長期文脈言語モデル(LCLM)のより標準化された評価を行う。
一方で,20のサブタスク,508の長いドキュメント,2000以上の質問応答ペアを含む,さまざまな質問スタイル,ドメイン,入力長(3k$3k$sim$200kトークン)を含む,新たな評価スイートを構築した。
一方,LCLMの溶出指標の有効性について検討した。
以上の結果から,一般的なn-gramマッチング尺度は人間の判断と相関し得ないことが示唆された。
L-Evalベンチマークを用いて,4種類の商用LCMと12種類のオープンソースを総合的に検討した。
実験結果からLCLMの研究に有用な知見が得られ,これらのモデルのより原理化された評価開発の基礎を築いた。
関連論文リスト
- Large Language Models Can Self-Improve in Long-context Reasoning [100.52886241070907]
大規模言語モデル(LLM)は、長いコンテキストの処理においてかなりの進歩を遂げているが、それでも長いコンテキストの推論に苦慮している。
我々はこの目的のために特別に設計されたアプローチである我々の提案する。
人類の専門家や 先進的なモデルによるデータに依存する 従来のアプローチと比べて 優れたパフォーマンスを達成しています
論文 参考訳(メタデータ) (2024-11-12T19:53:00Z) - LongIns: A Challenging Long-context Instruction-based Exam for LLMs [44.51209510772957]
大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。
本稿ではLongInsベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-25T14:31:26Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - ELITR-Bench: A Meeting Assistant Benchmark for Long-Context Language Models [25.74741863885925]
本稿では,現実的な会議支援シナリオに基づく長期コンテキストモデルのための新しいベンチマークを提案する。
ELITR-Benchという名前のベンチマークでは、既存のERLITRコーパスの書き起こしを271の手作業による質問と、その真真正な回答で強化しています。
以上の結果から,GPT-4の評価スコアは人間の判断値と相関するが,3つ以上の評価値と区別できる能力は限定的である可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-29T16:13:31Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。