論文の概要: S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large
Language Models
- arxiv url: http://arxiv.org/abs/2310.15147v1
- Date: Mon, 23 Oct 2023 17:52:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 18:05:05.343978
- Title: S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large
Language Models
- Title(参考訳): S3Eval: 大規模言語モデルのための合成,スケーラブル,システム評価スイート
- Authors: Fangyu Lei, Qian Liu, Yiming Huang, Shizhu He, Jun Zhao, Kang Liu
- Abstract要約: 本稿では,複雑な合成タスクをプロキシ評価手法として利用し,S3Evalを提案する。
合成ベンチマークとして、S3EvalはLLMに理論的に見えないいくつかの評価例を作成することができる。
The strong correlation between S3Eval performance and scores of real-world benchmarks like Big-Bench Hard (BBH) shows the soundness of using S3Eval for evaluation of LLMs。
- 参考スコア(独自算出の注目度): 32.41215302413731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of Large Language Models (LLMs) has led to great
strides in model capabilities like reasoning and long-context understanding.
However, as LLMs are able to process longer contexts, it becomes more
challenging to evaluate whether they have acquired certain capabilities, since
the length of text (e.g., 100K tokens) they can process far exceeds what humans
can reliably assess in a reasonable duration. In this paper, we propose using
complex synthetic tasks as a proxy evaluation method, and present S3Eval, a
Synthetic, Scalable, Systematic evaluation suite for LLMs evaluation. As a
synthetic benchmark, S3Eval enables the creation of any number of evaluation
examples that are theoretically invisible to LLMs, mitigating the test set
contamination issue. The synthetic nature of S3Eval provides users full control
over the dataset, allowing them to systematically probe LLM capabilities by
scaling text length and varying task difficulty across diverse scenarios. The
strong correlation between S3Eval performance and scores of real-world
benchmarks like Big-Bench Hard (BBH) demonstrates the soundness of using S3Eval
for evaluation of LLMs. The in-depth analysis also uncover additional insights,
including performance drop when the answer is sparsely distributed or located
in the middle context, as well as some counter-intuitive trends of model
performance.
- Abstract(参考訳): LLM(Large Language Models)の急速な開発は、推論や長いコンテキスト理解といったモデル機能に大きな進歩をもたらした。
しかし、LLMはより長いコンテキストを処理できるため、テキストの長さ(例えば100Kトークン)が人間がある程度の期間で確実に評価できるものを超えるので、特定の能力を得たかどうかを評価することはより困難になる。
本稿では,複雑な合成タスクをプロキシ評価手法として使用し,LLM評価のための合成・スケーラブル・システム評価スイートであるS3Evalを提案する。
合成ベンチマークとして、S3EvalはLLMに理論的に見えない多くの評価例を作成し、テストセットの汚染問題を緩和する。
S3Evalの合成特性は、データセットを完全に制御し、テキストの長さとさまざまなシナリオにわたるタスクの難しさをスケーリングすることで、LLM機能を体系的に調査することを可能にする。
The strong correlation between S3Eval performance and scores of real-world benchmarks like Big-Bench Hard (BBH) shows the soundness of using S3Eval for evaluation of LLMs。
詳細な分析によって、回答がスパースに分散されたり、中間のコンテキストに配置された場合のパフォーマンス低下や、直観に反するモデルパフォーマンスの傾向など、さらなる洞察も明らかになった。
関連論文リスト
- LIFBench: Evaluating the Instruction Following Performance and Stability of Large Language Models in Long-Context Scenarios [16.72802527902692]
本稿では,Long-context Instruction-Following Benchmark (LIFBench)を紹介する。
LIFBenchは3つの長文シナリオと11の多様なタスクから構成されており、長さ、式、変数の3次元にわたる自動拡張メソッドによって生成される2,766の命令でサポートされている。
評価のために,LLM支援評価や人的判断に頼ることなく,複雑なLCM応答の正確な自動スコアリングを提供するルーリックベースの評価フレームワークLIFEvalを提案する。
論文 参考訳(メタデータ) (2024-11-11T14:43:51Z) - Empirical Insights on Fine-Tuning Large Language Models for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。
我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。
実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文 参考訳(メタデータ) (2024-09-24T07:38:38Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - 3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset [13.808860456901204]
3DBenchと呼ばれる大規模命令チューニングデータセットを伴って,スケーラブルな3Dベンチマークを導入する。
具体的には、オブジェクトレベルからシーンレベルまで、幅広い空間的・意味的なスケールにまたがるベンチマークを確立する。
我々は、スケーラブルな3D命令チューニングデータセットを自動構築するための厳格なパイプラインを提案し、合計0.23百万QAペアが生成される10の多様なマルチモーダルタスクをカバーしている。
論文 参考訳(メタデータ) (2024-04-23T02:06:10Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal [49.24054920683246]
大規模言語モデル(LLM)は、連続学習中に破滅的な忘れ込みに悩まされる。
自己合成リハーサル(Self-Synthesized Rehearsal, SSR)と呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-02T16:11:23Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。