論文の概要: S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.15147v2
- Date: Sat, 6 Apr 2024 15:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 02:35:24.528005
- Title: S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large Language Models
- Title(参考訳): S3Eval: 大規模言語モデルのための合成,スケーラブル,システム評価スイート
- Authors: Fangyu Lei, Qian Liu, Yiming Huang, Shizhu He, Jun Zhao, Kang Liu,
- Abstract要約: 本稿では,複雑な合成タスクをプロキシ評価手法として利用し,S3Evalを提案する。
S3Evalはフレキシブルで無限の長文データ生成方法を提供する。
我々は、S3Eval-Standardと呼ばれる包括的なデータセットを作成し、実験結果により、既存のLLMすべてに重大な課題が生じることを示した。
- 参考スコア(独自算出の注目度): 30.588589158431553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of Large Language Models (LLMs) has led to great strides in model capabilities like long-context understanding and reasoning. However, as LLMs are able to process longer contexts, it becomes more challenging to evaluate whether they have acquired certain capabilities, since the length of text (e.g., 200K tokens) they can process far exceeds what humans can reliably assess in a reasonable duration. In this paper, we propose using complex synthetic tasks as a proxy evaluation method, and present S3Eval, a Synthetic, Scalable, Systematic evaluation suite for LLMs evaluation. The synthetic nature of S3Eval provides users full control over the dataset, allowing them to systematically probe LLM capabilities by scaling text length and varying task difficulty across diverse scenarios. The strong correlation between S3Eval and real-world benchmarks demonstrates the soundness of using S3Eval for evaluation of LLMs. S3Eval provides a flexible and infinite long-context data generation method. We have generated a comprehensive dataset called S3Eval-Standard, and experimental results have shown that it poses significant challenges for all existing LLMs.
- Abstract(参考訳): LLM(Large Language Models)の急速な開発は、長いコンテキスト理解や推論といったモデル機能に大きな進歩をもたらしました。
しかし、LLMはより長いコンテキストを処理できるため、テキストの長さ(例えば200Kトークン)が人間がある程度の期間で確実に評価できるものを超えるので、特定の能力を得たかどうかを評価することがより困難になる。
本稿では,複雑な合成タスクをプロキシ評価手法として使用し,LLM評価のための合成・スケーラブル・システム評価スイートであるS3Evalを提案する。
S3Evalの合成特性は、データセットを完全に制御し、テキストの長さとタスクの難易度をさまざまなシナリオで拡張することにより、LLM機能を体系的に調査することを可能にする。
S3Evalと実世界のベンチマークとの強い相関は、LLMの評価にS3Evalを使用することの健全性を示している。
S3Evalはフレキシブルで無限の長文データ生成方法を提供する。
我々は、S3Eval-Standardと呼ばれる包括的なデータセットを作成し、実験結果により、既存のLLMすべてに重大な課題が生じることを示した。
関連論文リスト
- LIFBench: Evaluating the Instruction Following Performance and Stability of Large Language Models in Long-Context Scenarios [16.72802527902692]
本稿では,Long-context Instruction-Following Benchmark (LIFBench)を紹介する。
LIFBenchは3つの長文シナリオと11の多様なタスクから構成されており、長さ、式、変数の3次元にわたる自動拡張メソッドによって生成される2,766の命令でサポートされている。
評価のために,LLM支援評価や人的判断に頼ることなく,複雑なLCM応答の正確な自動スコアリングを提供するルーリックベースの評価フレームワークLIFEvalを提案する。
論文 参考訳(メタデータ) (2024-11-11T14:43:51Z) - Empirical Insights on Fine-Tuning Large Language Models for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。
我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。
実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文 参考訳(メタデータ) (2024-09-24T07:38:38Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - 3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset [13.808860456901204]
3DBenchと呼ばれる大規模命令チューニングデータセットを伴って,スケーラブルな3Dベンチマークを導入する。
具体的には、オブジェクトレベルからシーンレベルまで、幅広い空間的・意味的なスケールにまたがるベンチマークを確立する。
我々は、スケーラブルな3D命令チューニングデータセットを自動構築するための厳格なパイプラインを提案し、合計0.23百万QAペアが生成される10の多様なマルチモーダルタスクをカバーしている。
論文 参考訳(メタデータ) (2024-04-23T02:06:10Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal [49.24054920683246]
大規模言語モデル(LLM)は、連続学習中に破滅的な忘れ込みに悩まされる。
自己合成リハーサル(Self-Synthesized Rehearsal, SSR)と呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-02T16:11:23Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。