論文の概要: L-Eval: Instituting Standardized Evaluation for Long Context Language
Models
- arxiv url: http://arxiv.org/abs/2307.11088v2
- Date: Mon, 31 Jul 2023 17:19:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 20:04:58.819875
- Title: L-Eval: Instituting Standardized Evaluation for Long Context Language
Models
- Title(参考訳): l-eval:long context language modelの標準化評価
- Authors: Chenxin An, Shansan Gong, Ming Zhong, Mukai Li, Jun Zhang, Lingpeng
Kong, and Xipeng Qiu
- Abstract要約: L-Evalは411の長いドキュメントと2000以上の人間ラベルのクエリ応答対を含む。
調査の結果,オープンソースモデルは一般的に商用モデルに遅れを取っているが,通常のバージョンと比較しても優れた性能を示していることが示唆された。
- 参考スコア(独自算出の注目度): 45.80203385878619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been growing interest in extending the context length of
instruction-following models in order to effectively process single-turn long
input (e.g. summarizing a paper) and conversations with more extensive
histories. While proprietary models such as GPT-4 and Claude have shown
significant strides in handling extremely lengthy input, open-sourced models
are still in the early stages of experimentation. It also remains unclear
whether extending the context can offer substantial gains over traditional
methods such as retrieval, and to what extent it improves upon their regular
counterparts in practical downstream tasks. To address this challenge, we
propose instituting standardized evaluation for long context language models.
Concretely, we develop L-Eval which contains 411 long documents and over 2,000
human-labeled query-response pairs encompassing areas such as law, finance,
school lectures, lengthy conversations, news, long-form novels, and meetings.
L-Eval also adopts diverse evaluation methods and instruction styles, enabling
a more reliable assessment of Long Context Language Models (LCLMs). Our
findings indicate that while open-source models typically lag behind commercial
models, they still exhibit impressive performance compared with their regular
versions. LLaMA2-13B achieves the best results on both open-ended tasks (win
\textbf{42}\% vs turbo-16k-0613) and closed-ended tasks with only 4k context
length. We release our new evaluation suite, code, and all generation results
including predictions from all open-sourced LCLMs, GPT4-32k, Cluade-100k at
{\url{https://github.com/OpenLMLab/LEval}}.
- Abstract(参考訳): 近年、単ターンの長い入力(例えば論文の要約)やより広範な歴史との会話を効果的に処理するために、命令追従モデルのコンテキストの長さを拡張することへの関心が高まっている。
GPT-4やClaudeのようなプロプライエタリなモデルは極めて長い入力を扱う上で大きな進歩を見せているが、オープンソースモデルは実験の初期段階にある。
文脈の拡張が、検索のような従来の手法よりも大幅に向上するかどうか、また、実際の下流タスクにおける通常の手法よりもどの程度改善されるのかは、まだ不明である。
本稿では,この課題に対処するために,長文言語モデルの標準化評価手法を提案する。
具体的には,L-Evalの長文411件と,法律,財務,学校講義,長文の会話,ニュース,長文の小説,会議などを含む2,000件以上の人文ラベルによる質問応答ペアを開発した。
L-Evalは様々な評価手法や命令スタイルを採用しており、Long Context Language Models (LCLM) の信頼性を高めている。
調査の結果,オープンソースモデルは一般的に商用モデルに遅れを取っているが,通常のバージョンに比べて優れた性能を示した。
LLaMA2-13Bは、オープンエンドタスク(Win \textbf{42}\% vs Turbo-16k-0613)と4kコンテキスト長のクローズドエンドタスクの両方で最高の結果を得る。
オープンソースLCLM, GPT4-32k, Cluade-100k at {\url{https://github.com/OpenLMLab/LEval}} の予測を含む,新たな評価スイート,コード,およびすべての生成結果をリリースする。
関連論文リスト
- Large Language Models Can Self-Improve in Long-context Reasoning [100.52886241070907]
大規模言語モデル(LLM)は、長いコンテキストの処理においてかなりの進歩を遂げているが、それでも長いコンテキストの推論に苦慮している。
我々はこの目的のために特別に設計されたアプローチである我々の提案する。
人類の専門家や 先進的なモデルによるデータに依存する 従来のアプローチと比べて 優れたパフォーマンスを達成しています
論文 参考訳(メタデータ) (2024-11-12T19:53:00Z) - LongIns: A Challenging Long-context Instruction-based Exam for LLMs [44.51209510772957]
大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。
本稿ではLongInsベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-25T14:31:26Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。