論文の概要: L-Eval: Instituting Standardized Evaluation for Long Context Language
Models
- arxiv url: http://arxiv.org/abs/2307.11088v3
- Date: Wed, 4 Oct 2023 10:04:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 21:17:37.896894
- Title: L-Eval: Instituting Standardized Evaluation for Long Context Language
Models
- Title(参考訳): l-eval:long context language modelの標準化評価
- Authors: Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li, Jun
Zhang, Lingpeng Kong and Xipeng Qiu
- Abstract要約: 長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
- 参考スコア(独自算出の注目度): 91.05820785008527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been growing interest in extending the context length of
large language models (LLMs), aiming to effectively process long inputs of one
turn or conversations with more extensive histories. While proprietary models
such as GPT-4 and Claude can largely preserve the reasoning ability in an
extended context, open-source models are still progressing through the early
stages of development. To bridge this gap, we propose L-Eval to institute a
more standardized evaluation for long context language models (LCLMs)
addressing two key aspects: dataset construction and evaluation metrics. On the
one hand, we build a new evaluation suite containing 20 sub-tasks, 508 long
documents, and over 2,000 human-labeled query-response pairs encompassing
diverse question styles, domains, and input length (3k$\sim$200k tokens). On
the other hand, we investigate the effectiveness in evalution metrics for
LCLMs. Results show that popular n-gram matching metrics generally can not
correlate well with human judgment, and thus we strongly advocate for
length-instruction-enhanced (LIE) evaluation and employing LLM judges. We
conducted a comprehensive study of 4 popular commercial LLMs and 12 open-source
counterparts using the L-Eval benchmark. Our empirical findings offer useful
insights into the study of LCLMs and lay the groundwork for the development of
more principled evaluation of these models.
- Abstract(参考訳): 近年,大きな言語モデル (LLM) の文脈長の拡張への関心が高まっており,一ターンの長い入力や,より広範な歴史を持つ会話を効果的に処理することを目指している。
GPT-4やClaudeのようなプロプライエタリなモデルは、拡張されたコンテキストで推論能力を維持することができるが、オープンソースモデルはまだ開発の初期段階にある。
このギャップを埋めるため、L-Evalは、データセット構築と評価指標の2つの主要な側面に対処する長期文脈言語モデル(LCLM)のより標準化された評価を行う。
一方で,20のサブタスク,508の長いドキュメント,2000以上の質問応答ペアを含む,さまざまな質問スタイル,ドメイン,入力長(3k$3k$sim$200kトークン)を含む,新たな評価スイートを構築した。
一方,LCLMの溶出指標の有効性について検討した。
以上の結果から,一般的なn-gramマッチング尺度は人間の判断と相関し得ないことが示唆された。
L-Evalベンチマークを用いて,4種類の商用LCMと12種類のオープンソースを総合的に検討した。
実験結果からLCLMの研究に有用な知見が得られ,これらのモデルのより原理化された評価開発の基礎を築いた。
関連論文リスト
- Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to
256K [48.11471429292751]
LV-Evalは5つの長さレベルが256kまで達する長文の長文ベンチマークである。
LV-Evalの設計には3つの重要なテクニックが組み込まれている。
LV-Evalの利点は、異なるコンテキストの長さにわたる制御可能な評価、紛らわしい事実を持つテストインスタンスへの挑戦、より客観的な評価である。
論文 参考訳(メタデータ) (2024-02-06T13:11:19Z) - Benchmarking Generation and Evaluation Capabilities of Large Language
Models for Instruction Controllable Summarization [136.18825814573208]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [50.408957515411096]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Evaluating Large Language Models at Evaluating Instruction Following [57.74447923909296]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,これらの「LLM評価器」の有効性について検討する。
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling
Capacities of Large Language Models [151.503051479077]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。