論文の概要: Assessing Programming Task Difficulty for Efficient Evaluation of Large Language Models
- arxiv url: http://arxiv.org/abs/2407.21227v1
- Date: Tue, 30 Jul 2024 22:31:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 19:14:52.976641
- Title: Assessing Programming Task Difficulty for Efficient Evaluation of Large Language Models
- Title(参考訳): 大規模言語モデルの効率的な評価に難渋するプログラミングタスクの評価
- Authors: Florian Tambon, Amin Nikanjam, Foutse Khomh, Giuliano Antoniol,
- Abstract要約: 本稿では,大規模言語モデル(LLM)のタスク難易度を評価するためのフレームワークであるHardEvalを考案する。
HardEvalは、HumanEval+とClassEvalの2つのコード生成ベンチマークの中で、ハードタスクを確実に識別できることを示す。
また、新しいハードタスクを生成するために使用した6つの実用的なハードタスクトピックを特徴付ける。
- 参考スコア(独自算出の注目度): 12.633996425882223
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models (LLMs) show promising potential in Software Engineering, especially for code-related tasks like code completion and code generation. LLMs' evaluation is generally centred around general metrics computed over benchmarks. While painting a macroscopic view of the benchmarks and of the LLMs' capacity, it is unclear how each programming task in these benchmarks assesses the capabilities of the LLMs. In particular, the difficulty level of the tasks in the benchmarks is not reflected in the score used to report the performance of the model. Yet, a model achieving a 90% score on a benchmark of predominantly easy tasks is likely less capable than a model achieving a 90% score on a benchmark containing predominantly difficult tasks. This paper devises a framework, HardEval, for assessing task difficulty for LLMs and crafting new tasks based on identified hard tasks. The framework uses a diverse array of prompts for a single task across multiple LLMs to obtain a difficulty score for each task of a benchmark. Using two code generation benchmarks, HumanEval+ and ClassEval, we show that HardEval can reliably identify the hard tasks within those benchmarks, highlighting that only 21% of HumanEval+ and 27% of ClassEval tasks are hard for LLMs. Through our analysis of task difficulty, we also characterize 6 practical hard task topics which we used to generate new hard tasks. Orthogonal to current benchmarking evaluation efforts, HardEval can assist researchers and practitioners in fostering better assessments of LLMs. The difficulty score can be used to identify hard tasks within existing benchmarks. This, in turn, can be leveraged to generate more hard tasks centred around specific topics either for evaluation or improvement of LLMs. HardEval generalistic approach can be applied to other domains such as code completion or Q/A.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特にコード補完やコード生成といったコード関連のタスクにおいて、ソフトウェア工学において有望な可能性を示している。
LLMの評価は一般にベンチマーク上で計算される一般的なメトリクスを中心に行われる。
ベンチマークのマクロビューとLCMのキャパシティを描いているが、これらのベンチマークにおける各プログラミングタスクがどのようにLCMの能力を評価するかは明らかではない。
特に、ベンチマークにおけるタスクの難易度は、モデルの性能を報告するためのスコアに反映されない。
しかし、最も簡単なタスクのベンチマークで90%のスコアを達成するモデルは、非常に難しいタスクを含むベンチマークで90%のスコアを達成するモデルよりも、おそらく能力が低い。
本稿では,LLMにおけるタスクの難易度を評価するためのフレームワークであるHardEvalを考案し,特定されたハードタスクに基づいて新しいタスクを作成する。
このフレームワークは、複数のLCMにまたがる1つのタスクに対して多様なプロンプトを使用して、ベンチマークの各タスクの難易度スコアを取得する。
HumanEval+とClassEvalの2つのコード生成ベンチマークを使用して、HumanEval+の21%とClassEvalタスクの27%だけがLSMにとって難しいことを強調して、HardEvalがこれらのベンチマーク内のハードタスクを確実に識別できることを示します。
また,課題難易度の分析を通じて,新しい課題を生成するために使用した6つの実践的課題を特徴付ける。
現在のベンチマーク評価の取り組みと直交して、HardEvalは研究者や実践者がLCMのより良い評価を促進するのを助けることができる。
難易度スコアは、既存のベンチマーク内の難しいタスクを特定するために使用することができる。
これは、LLMの評価や改善のために、特定のトピックを中心としたより難しいタスクを生成するために活用することができる。
HardEvalの一般的なアプローチは、コード補完やQ/Aといった他のドメインにも適用できる。
関連論文リスト
- Escalating LLM-based Code Translation Benchmarking into the Class-level Era [20.22104136730419]
ClassEval-Tは、Large Language Models (LLM)向けのクラスレベルのコード変換ベンチマークである。
ClassEvalをベースに構築されたClassEval-Tは、JavaとC++に拡張され、完全なコードサンプルとテストスイートが提供される。
論文 参考訳(メタデータ) (2024-11-09T11:13:14Z) - Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.27645170941268]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。
これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。
様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文 参考訳(メタデータ) (2024-09-27T03:49:56Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - PECC: Problem Extraction and Coding Challenges [3.287942619833188]
PECCは、Advent Of Code(AoC)の課題とProject Eulerから派生した、新しいベンチマークである。
従来のベンチマークとは異なり、PECCは物語に埋め込まれた問題を解釈し、要求を抽出し、コードを生成するためにLCMを必要とする。
結果は、ユーラー数に基づく部分集合において、物語的問題と中立的問題の間に様々なモデル性能を示す。
論文 参考訳(メタデータ) (2024-04-29T15:02:14Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。