論文の概要: On Inter-dataset Code Duplication and Data Leakage in Large Language
Models
- arxiv url: http://arxiv.org/abs/2401.07930v1
- Date: Mon, 15 Jan 2024 19:46:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 15:59:31.494909
- Title: On Inter-dataset Code Duplication and Data Leakage in Large Language
Models
- Title(参考訳): 大規模言語モデルにおけるデータセット間の重複とデータ漏洩について
- Authors: Jos\'e Antonio Hern\'andez L\'opez, Boqi Chen, Tushar Sharma, D\'aniel
Varr\'o
- Abstract要約: 本稿では,データセット間の重複現象とその大規模言語モデル(LLM)評価への影響について検討する。
復号化プロセスを用いて,事前学習データセットと微調整データセットの交点を同定する。
CSNで事前学習した4つのモデルを微調整し、事前学習中に見いだされたサンプルと、その段階で見つからないモデルの性能を評価する。
- 参考スコア(独自算出の注目度): 5.704848262917858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivation. Large language models (LLMs) have exhibited remarkable
proficiency in diverse software engineering (SE) tasks. Handling such tasks
typically involves acquiring foundational coding knowledge on large,
general-purpose datasets during a pre-training phase, and subsequently refining
on smaller, task-specific datasets as part of a fine-tuning phase.
Problem statement. Data leakage is a well-known issue in training of machine
learning models. A manifestation of this issue is the intersection of the
training and testing splits. While intra-dataset code duplication examines this
intersection within a given dataset and has been addressed in prior research,
inter-dataset code duplication, which gauges the overlap between different
datasets, remains largely unexplored. If this phenomenon exists, it could
compromise the integrity of LLM evaluations because of the inclusion of
fine-tuning test samples that were already encountered during pre-training,
resulting in inflated performance metrics.
Contribution. This paper explores the phenomenon of inter-dataset code
duplication and its impact on evaluating LLMs across diverse SE tasks.
Study design. We conduct an empirical study using the CSN dataset, a widely
adopted pre-training dataset, and five fine-tuning datasets used for various SE
tasks. We first identify the intersection between the pre-training and
fine-tuning datasets using a deduplication process. Then, we fine-tune four
models pre-trained on CSN to evaluate their performance on samples encountered
during pre-training and those unseen during that phase.
Results. Our findings reveal a potential threat to the evaluation of various
LLMs across multiple SE tasks, stemming from the inter-dataset code duplication
phenomenon. Moreover, we demonstrate that this threat is accentuated by factors
like the LLM's size and the chosen fine-tuning technique.
- Abstract(参考訳): モチベーション。
大規模言語モデル(LLM)は、多様なソフトウェア工学(SE)タスクにおいて顕著な熟練度を示した。
このようなタスクの処理は、トレーニング前の段階で、大規模で汎用的なデータセットに関する基礎的なコーディング知識を取得し、その後、微調整フェーズの一部として、小さなタスク固有のデータセットを精算する。
問題明細書。
データ漏洩は機械学習モデルのトレーニングにおいてよく知られた問題である。
この問題の顕在化は、トレーニングとテストの分裂の交差点である。
データセット内コードの重複は、所定のデータセット内のこの交差点を調べ、以前の研究で対処されているが、異なるデータセット間の重複を計測するデータセット間重複は、ほとんど未調査のままである。
もしこの現象が存在するなら、事前トレーニング中に既に遭遇していた微調整されたテストサンプルが含まれているため、LCM評価の完全性を損なう可能性がある。
貢献。
本稿では,データセット間の重複現象とその多種多様なSEタスクにおけるLCM評価への影響について検討する。
デザインを学ぶ。
CSNデータセット、広く採用されている事前学習データセット、および様々なSEタスクに使用される5つの微調整データセットを用いて実証的研究を行う。
まず,プリトレーニングデータセットと微調整データセットの交点を重複解消プロセスを用いて識別する。
次に, csnで事前学習した4つのモデルを用いて, 事前学習中に遭遇した試料と, その段階で検出されなかった試料の性能評価を行った。
結果だ
この結果から,複数のSEタスクにまたがる様々なLSMの評価に対する潜在的な脅威が明らかとなった。
さらに,この脅威は,llmのサイズや選択した微調整技術などによって強調されることを示した。
関連論文リスト
- Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Finding Foundation Models for Time Series Classification with a PreText
Task [7.197233473373693]
本稿では,時系列分類のための事前訓練済みドメイン基盤モデルを提案する。
我々の方法論の重要な側面は、複数のデータセットにまたがる新しいプリテキストタスクである。
UCRアーカイブの実験では,この事前学習戦略が,事前学習を伴わずに従来の訓練方法よりも有意に優れていたことが示されている。
論文 参考訳(メタデータ) (2023-11-24T15:03:55Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Designing Data: Proactive Data Collection and Iteration for Machine
Learning [12.295169687537395]
データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。
データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルのトレーニングを追跡および管理する新しい方法が必要である。
論文 参考訳(メタデータ) (2023-01-24T21:40:29Z) - Multiple Instance Learning for Detecting Anomalies over Sequential
Real-World Datasets [2.427831679672374]
MIL(Multiple Instance Learning)は、トレーニングデータセットにおけるラベルの不完全な知識に関する問題に対して有効であることが示されている。
MILに基づく定式化と,異なる設計決定に基づいて,このフレームワークの様々なアルゴリズムのインスタンス化を提案する。
このフレームワークは、さまざまな現実世界のアプリケーションドメインから生じる多様なデータセットをうまく一般化する。
論文 参考訳(メタデータ) (2022-10-04T16:02:09Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Multi-Task Hierarchical Learning Based Network Traffic Analytics [18.04195092141071]
約1.3Mのラベル付きフローを含む3つのオープンデータセットを提示する。
我々は、マルウェア検出とアプリケーション分類の両方を含む、ネットワークトラフィック分析の幅広い側面に焦点を当てる。
成長を続けるにつれて、データセットはAI駆動の再現可能なネットワークフロー分析研究の共通基盤として機能することを期待しています。
論文 参考訳(メタデータ) (2021-06-05T02:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。