Fugu-MT 論文翻訳(概要): On Leakage of Code Generation Evaluation Datasets

論文の概要: On Leakage of Code Generation Evaluation Datasets

arxiv url: http://arxiv.org/abs/2407.07565v3
Date: Thu, 3 Oct 2024 16:48:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 22:40:08.393493
Title: On Leakage of Code Generation Evaluation Datasets
Title（参考訳）: コード生成評価データセットの漏洩について
Authors: Alexandre Matton, Tom Sherborne, Dennis Aumiller, Elena Tommasone, Milad Alizadeh, Jingyi He, Raymond Ma, Maxime Voisin, Ellen Gilsenan-McMahon, Matthias Gallé,
Abstract要約: コード生成テストセットによる汚染について考察する。これを解決するために、LBPP(Less Basic Python Problems)をリリースします。
参考スコア（独自算出の注目度）: 44.4726918027046
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we consider contamination by code generation test sets, in particular in their use in modern large language models. We discuss three possible sources of such contamination and show findings supporting each of them: (i) direct data leakage, (ii) indirect data leakage through the use of synthetic data and (iii) overfitting to evaluation sets during model selection. To address this, we release Less Basic Python Problems (LBPP): an uncontaminated new benchmark of 161 prompts with their associated Python solutions. LBPP is released at https://huggingface.co/datasets/CohereForAI/lbpp .
Abstract（参考訳）: 本稿では,コード生成テストセットによる汚染について考察する。このような汚染の原因を3つ議論し、それぞれを裏付ける知見を示す。 (i)直接データ漏洩二合成データを利用した間接的データ漏洩三モデル選択時の評価セットに過度に適合すること。これを解決するために、LBPP(Less Basic Python Problems)をリリースします。 LBPPはhttps://huggingface.co/datasets/CohereForAI/lbpp でリリースされている。

関連論文リスト

Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。 LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文参考訳（メタデータ） (2025-06-06T13:02:59Z)
PyResBugs: A Dataset of Residual Python Bugs for Natural Language-Driven Fault Injection [5.383910843560784]
PyResBugsは、主要なPythonフレームワークからの残留バグのデータセットである。各バグは、対応するフォールトフリー(固定)バージョンとペアリングされ、マルチレベル自然言語(NL)記述と注釈付けされる。
論文参考訳（メタデータ） (2025-05-09T04:39:09Z)
A Survey on Data Contamination for Large Language Models [12.431575579432458]
大規模言語モデル(LLM)は、テキスト生成やコード合成など、様々な分野で大きな進歩を見せている。データ汚染による性能評価の信頼性は精査されている。
論文参考訳（メタデータ） (2025-02-20T10:23:27Z)
Leveraging Large Language Models in Code Question Answering: Baselines and Issues [0.1617522438111378]
本稿では,Pythonのソースコードに対する質問応答のために,大規模言語モデルを用いた研究について述べる。提案手法は,Pythonコードの問合せと解答の統一データセット上で,大規模言語モデルを微調整することを含む。手動エラー解析の結果とともに,BLEU-4,BERTScore F1,BLEURT,Exact Matchの測定値について報告する。
論文参考訳（メタデータ） (2024-11-05T11:25:12Z)
CodeInsight: A Curated Dataset of Practical Coding Solutions from Stack Overflow [10.19019476978683]
データセットは、明確化インテント、コードスニペットの関連、関連する3つのユニットテストの平均を含む例を提供する。 Pythonの専門家が作成した3,409の例を補完する私たちのデータセットは、モデル微調整とスタンドアロン評価の両方のために設計されています。
論文参考訳（メタデータ） (2024-09-25T11:18:52Z)
Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文参考訳（メタデータ） (2024-09-03T11:09:44Z)
Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文参考訳（メタデータ） (2024-03-27T15:15:14Z)
A Little Leak Will Sink a Great Ship: Survey of Transparency for Large Language Models from Start to Finish [47.3916421056009]
大規模言語モデル(LLM)は、大規模なウェブクローリングコーパスで訓練されている。 LLMは、トレーニングセットでそのようなデータが少ないにもかかわらず、ほとんどの場合、漏洩した情報を生成する。自己検出法は既存の検出法と比較して優れた性能を示した。
論文参考訳（メタデータ） (2024-03-24T13:21:58Z)
LatestEval: Addressing Data Contamination in Language Model Evaluation through Dynamic and Time-Sensitive Test Construction [21.553915781660905]
LatestEvalは、最新のテキストを活用して、非汚染読影理解評価を作成する自動手法である。これは、最近のタイムウインドウで公開されたテキストのみを使用することでデータ汚染を回避し、事前訓練された言語モデルのトレーニングコーパスと重複しないようにする。実験の結果,従来のベンチマークとは対照的に,言語モデルは LatestEval 上で無視可能な記憶行動を示すことがわかった。
論文参考訳（メタデータ） (2023-12-19T17:16:43Z)
Rethinking Benchmark and Contamination for Language Models with Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文参考訳（メタデータ） (2023-11-08T17:35:20Z)
Towards Mitigating more Challenging Spurious Correlations: A Benchmark & New Datasets [43.64631697043496]
ディープニューラルネットワークは、しばしばクラスラベルと急激な相関を持つ非予測的特徴を利用する。急激な相関を修復する最近の研究が増えているにもかかわらず、標準化されたベンチマークの欠如は再現可能な評価を妨げている。本稿では,PythonパッケージであるSpuCoについて述べる。
論文参考訳（メタデータ） (2023-06-21T00:59:06Z)
The Gap on GAP: Tackling the Problem of Differing Data Distributions in Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文参考訳（メタデータ） (2020-11-03T16:50:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。