Fugu-MT 論文翻訳(概要): S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large Language Models

論文の概要: S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large Language Models

arxiv url: http://arxiv.org/abs/2310.15147v1
Date: Mon, 23 Oct 2023 17:52:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 18:05:05.343978
Title: S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large Language Models
Title（参考訳）: S3Eval: 大規模言語モデルのための合成,スケーラブル,システム評価スイート
Authors: Fangyu Lei, Qian Liu, Yiming Huang, Shizhu He, Jun Zhao, Kang Liu
Abstract要約: 本稿では,複雑な合成タスクをプロキシ評価手法として利用し,S3Evalを提案する。合成ベンチマークとして、S3EvalはLLMに理論的に見えないいくつかの評価例を作成することができる。 The strong correlation between S3Eval performance and scores of real-world benchmarks like Big-Bench Hard (BBH) shows the soundness of using S3Eval for evaluation of LLMs。
参考スコア（独自算出の注目度）: 32.41215302413731
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid development of Large Language Models (LLMs) has led to great strides in model capabilities like reasoning and long-context understanding. However, as LLMs are able to process longer contexts, it becomes more challenging to evaluate whether they have acquired certain capabilities, since the length of text (e.g., 100K tokens) they can process far exceeds what humans can reliably assess in a reasonable duration. In this paper, we propose using complex synthetic tasks as a proxy evaluation method, and present S3Eval, a Synthetic, Scalable, Systematic evaluation suite for LLMs evaluation. As a synthetic benchmark, S3Eval enables the creation of any number of evaluation examples that are theoretically invisible to LLMs, mitigating the test set contamination issue. The synthetic nature of S3Eval provides users full control over the dataset, allowing them to systematically probe LLM capabilities by scaling text length and varying task difficulty across diverse scenarios. The strong correlation between S3Eval performance and scores of real-world benchmarks like Big-Bench Hard (BBH) demonstrates the soundness of using S3Eval for evaluation of LLMs. The in-depth analysis also uncover additional insights, including performance drop when the answer is sparsely distributed or located in the middle context, as well as some counter-intuitive trends of model performance.
Abstract（参考訳）: LLM(Large Language Models)の急速な開発は、推論や長いコンテキスト理解といったモデル機能に大きな進歩をもたらした。しかし、LLMはより長いコンテキストを処理できるため、テキストの長さ(例えば100Kトークン)が人間がある程度の期間で確実に評価できるものを超えるので、特定の能力を得たかどうかを評価することはより困難になる。本稿では,複雑な合成タスクをプロキシ評価手法として使用し,LLM評価のための合成・スケーラブル・システム評価スイートであるS3Evalを提案する。合成ベンチマークとして、S3EvalはLLMに理論的に見えない多くの評価例を作成し、テストセットの汚染問題を緩和する。 S3Evalの合成特性は、データセットを完全に制御し、テキストの長さとさまざまなシナリオにわたるタスクの難しさをスケーリングすることで、LLM機能を体系的に調査することを可能にする。 The strong correlation between S3Eval performance and scores of real-world benchmarks like Big-Bench Hard (BBH) shows the soundness of using S3Eval for evaluation of LLMs。詳細な分析によって、回答がスパースに分散されたり、中間のコンテキストに配置された場合のパフォーマンス低下や、直観に反するモデルパフォーマンスの傾向など、さらなる洞察も明らかになった。

関連論文リスト

Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
LIFBench: Evaluating the Instruction Following Performance and Stability of Large Language Models in Long-Context Scenarios [16.72802527902692]
本稿では,Long-context Instruction-Following Benchmark (LIFBench)を紹介する。 LIFBenchは3つの長文シナリオと11の多様なタスクから構成されており、長さ、式、変数の3次元にわたる自動拡張メソッドによって生成される2,766の命令でサポートされている。評価のために,LLM支援評価や人的判断に頼ることなく,複雑なLCM応答の正確な自動スコアリングを提供するルーリックベースの評価フレームワークLIFEvalを提案する。
論文参考訳（メタデータ） (2024-11-11T14:43:51Z)
Empirical Insights on Fine-Tuning Large Language Models for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文参考訳（メタデータ） (2024-09-24T07:38:38Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset [13.808860456901204]
3DBenchと呼ばれる大規模命令チューニングデータセットを伴って,スケーラブルな3Dベンチマークを導入する。具体的には、オブジェクトレベルからシーンレベルまで、幅広い空間的・意味的なスケールにまたがるベンチマークを確立する。我々は、スケーラブルな3D命令チューニングデータセットを自動構築するための厳格なパイプラインを提案し、合計0.23百万QAペアが生成される10の多様なマルチモーダルタスクをカバーしている。
論文参考訳（メタデータ） (2024-04-23T02:06:10Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal [49.24054920683246]
大規模言語モデル(LLM)は、連続学習中に破滅的な忘れ込みに悩まされる。自己合成リハーサル(Self-Synthesized Rehearsal, SSR)と呼ばれるフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-02T16:11:23Z)
MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文参考訳（メタデータ） (2023-10-24T17:59:20Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。