Fugu-MT 論文翻訳(概要): Addressing Data Leakage in HumanEval Using Combinatorial Test Design

論文の概要: Addressing Data Leakage in HumanEval Using Combinatorial Test Design

arxiv url: http://arxiv.org/abs/2412.01526v1
Date: Mon, 02 Dec 2024 14:18:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.591192
Title: Addressing Data Leakage in HumanEval Using Combinatorial Test Design
Title（参考訳）: コンビナティブテスト設計を用いた人文空間におけるデータ漏洩への対処
Authors: Jeremy S. Bradbury, Riddhi More,
Abstract要約: HumanEvalベンチマークは164の手作りタスクで構成されている。 HumanEvalのようなベンチマークを用いたLCMの公正な評価に対する大きな障壁は、データ汚染である。本稿では,新しい具体的なタスクにインスタンス化可能なテンプレートタスクからなるベンチマーク構築手法を提案する。
参考スコア（独自算出の注目度）: 1.9336815376402723
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The use of large language models (LLMs) is widespread across many domains, including Software Engineering, where they have been used to automate tasks such as program generation and test classification. As LLM-based methods continue to evolve, it is important that we define clear and robust methods that fairly evaluate performance. Benchmarks are a common approach to assess LLMs with respect to their ability to solve problem-specific tasks as well as assess different versions of an LLM to solve tasks over time. For example, the HumanEval benchmark is composed of 164 hand-crafted tasks and has become an important tool in assessing LLM-based program generation. However, a major barrier to a fair evaluation of LLMs using benchmarks like HumanEval is data contamination resulting from data leakage of benchmark tasks and solutions into the training data set. This barrier is compounded by the black-box nature of LLM training data which makes it difficult to even know if data leakage has occurred. To address the data leakage problem, we propose a new benchmark construction method where a benchmark is composed of template tasks that can be instantiated into new concrete tasks using combinatorial test design. Concrete tasks for the same template task must be different enough that data leakage has minimal impact and similar enough that the tasks are interchangeable with respect to performance evaluation. To assess our benchmark construction method, we propose HumanEval_T, an alternative benchmark to HumanEval that was constructed using template tasks and combinatorial test design.
Abstract（参考訳）: 大規模言語モデル(LLM)の使用は、プログラム生成やテスト分類といったタスクの自動化に使用されているソフトウェア工学など、多くの領域で広く使われている。 LLMをベースとした手法が進化を続ける中、我々は性能を高く評価する明確で堅牢な手法を定義することが重要である。ベンチマークは、問題固有のタスクを解く能力や、時間とともにタスクを解決するためのLLMの異なるバージョンを評価する能力に関して、LCMを評価するための一般的なアプローチである。例えば、HumanEvalベンチマークは164の手作りタスクで構成されており、LLMベースのプログラム生成を評価する上で重要なツールとなっている。しかし、HumanEvalのようなベンチマークを用いたLCMの公正な評価に対する大きな障壁は、ベンチマークタスクやソリューションのデータ漏洩によるデータ汚染である。この障壁は、LLMトレーニングデータのブラックボックスの性質によって複雑化されており、データ漏洩が発生したかどうかを知ることさえ困難である。データ漏洩問題に対処するため、組合せテスト設計を用いて、新しい具体的なタスクにインスタンス化できるテンプレートタスクからなるベンチマーク構築手法を提案する。同じテンプレートタスクの具体的なタスクは、データリークの影響を最小限に抑え、タスクがパフォーマンス評価に関して交換可能であるように、十分に異なるものでなければならない。本稿では,テンプレートタスクと組合せテスト設計を用いて構築したHumanEvalの代替ベンチマークであるHumanEval_Tを提案する。

関連論文リスト

LLM Performance for Code Generation on Noisy Tasks [0.41942958779358674]
大規模言語モデル(LLM)は、テキストが人間の読み手には理解できないレベルまで難解なタスクを解くことができることを示す。汚染されたデータセットと目に見えないデータセットの異なる性能劣化パターンの実証的証拠を報告する。そこで本研究では, 難燃化下での性能低下を, データセット汚染検出の可能な戦略として提案する。
論文参考訳（メタデータ） (2025-05-29T16:11:18Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge [68.39683427262335]
既存の研究は、新たに収集されたデータが既存の知識を含む可能性があるため、汚染のない評価を保証することができない。本稿では,自動アンチリーチベンチマークフレームワークであるAntiLeak-Benchを提案する。
論文参考訳（メタデータ） (2024-12-18T09:53:12Z)
A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。 30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。 FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文参考訳（メタデータ） (2024-11-27T03:25:44Z)
SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。 SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
BenTo: Benchmark Task Reduction with In-Context Transferability [32.561978389905434]
本稿では,大規模言語モデル(LLM)のベンチマークに使用するタスクを効率的に削減する方法を検討する。 In-context Learning (ICL) による2つのタスク間の伝達可能性を推定する実用的な指標を提案する。
論文参考訳（メタデータ） (2024-10-17T17:41:15Z)
Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。 4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文参考訳（メタデータ） (2024-09-03T11:09:44Z)
AcTracer: Active Testing of Large Language Model via Multi-Stage Sampling [17.89896012553348]
AcTracerは,大規模言語モデル(LLM)に適した,アクティブなテストフレームワークである。より正確な性能推定を達成するために、戦略的にテストデータの小さなサブセットを選択する。実験の結果,AcTracerは既存手法と比較して最先端の性能を達成できた。
論文参考訳（メタデータ） (2024-08-07T06:17:48Z)
TaskEval: Assessing Difficulty of Code Generation Tasks for Large Language Models [12.143152327874802]
LLM(Large Language Models)はコード生成のようなコード関連のタスクに優れていますが、ベンチマーク評価は困難などのタスク特性を見落とします。本稿では,多種多様なプロンプトと項目応答理論(IRT)を用いてLCMの能力とベンチマークタスク特性を効率的に評価するフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-30T22:31:19Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文参考訳（メタデータ） (2024-06-11T14:02:23Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
Revisit Input Perturbation Problems for LLMs: A Unified Robustness Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文参考訳（メタデータ） (2023-10-10T10:22:05Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。