論文の概要: CodeS: A Distribution Shift Benchmark Dataset for Source Code Learning
- arxiv url: http://arxiv.org/abs/2206.05480v1
- Date: Sat, 11 Jun 2022 09:32:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 17:07:53.035536
- Title: CodeS: A Distribution Shift Benchmark Dataset for Source Code Learning
- Title(参考訳): CodeS: ソースコード学習のための分散シフトベンチマークデータセット
- Authors: Qiang Hu, Yuejun Guo, Xiaofei Xie, Maxime Cordy, Lei Ma, Mike
Papadakis, Yves Le Traon
- Abstract要約: 本稿では,ソースコード学習のための分散シフトベンチマークであるCodeSを提案する。
CodeSは2つのプログラミング言語(JavaとPython)と5種類のコード分散シフトをサポートしている。
私たちの知る限りでは、コード表現ベースの分散シフトを最初に定義しています。
- 参考スコア(独自算出の注目度): 28.868479656437145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past few years, deep learning (DL) has been continuously expanding
its applications and becoming a driving force for large-scale source code
analysis in the big code era. Distribution shift, where the test set follows a
different distribution from the training set, has been a longstanding challenge
for the reliable deployment of DL models due to the unexpected accuracy
degradation. Although recent progress on distribution shift benchmarking has
been made in domains such as computer vision and natural language process.
Limited progress has been made on distribution shift analysis and benchmarking
for source code tasks, on which there comes a strong demand due to both its
volume and its important role in supporting the foundations of almost all
industrial sectors. To fill this gap, this paper initiates to propose CodeS, a
distribution shift benchmark dataset, for source code learning. Specifically,
CodeS supports 2 programming languages (i.e., Java and Python) and 5 types of
code distribution shifts (i.e., task, programmer, time-stamp, token, and CST).
To the best of our knowledge, we are the first to define the code
representation-based distribution shifts. In the experiments, we first evaluate
the effectiveness of existing out-of-distribution detectors and the
reasonability of the distribution shift definitions and then measure the model
generalization of popular code learning models (e.g., CodeBERT) on
classification task. The results demonstrate that 1) only softmax score-based
OOD detectors perform well on CodeS, 2) distribution shift causes the accuracy
degradation in all code classification models, 3) representation-based
distribution shifts have a higher impact on the model than others, and 4)
pre-trained models are more resistant to distribution shifts. We make CodeS
publicly available, enabling follow-up research on the quality assessment of
code learning models.
- Abstract(参考訳): 過去数年間にわたり、ディープラーニング(dl)はそのアプリケーションを継続的に拡張し、ビッグデータ時代の大規模ソースコード解析の原動力となっている。
テストセットがトレーニングセットと異なる分布に従っている分散シフトは、予期せぬ精度劣化のため、DLモデルの信頼性の高いデプロイにおいて長年の課題であった。
分散シフトベンチマークの最近の進歩は、コンピュータビジョンや自然言語プロセスといった領域で行われている。
ソースコードタスクの分散シフト分析とベンチマークでは、その量とほぼすべての産業分野の基礎を支える重要な役割の両方から強い需要が寄せられている。
このギャップを埋めるため,本稿では,ソースコード学習のための分散シフトベンチマークデータセットであるcodesを提案する。
具体的には、CodeSは2つのプログラミング言語(JavaとPython)と5種類のコード分散シフト(タスク、プログラマ、タイムスタンプ、トークン、CST)をサポートしている。
私たちの知る限りでは、コード表現ベースの分散シフトを最初に定義しています。
実験では,まず,既存のアウト・オブ・ディストリビューション・ディテクタの有効性と分布シフト定義の因果性を評価し,次に,一般的なコード学習モデル(CodeBERTなど)のモデル一般化を分類タスク上で測定した。
その結果は
1) ソフトマックススコアを用いたOOD検出器のみがCodeSで良好に動作する。
2) 分布シフトはすべてのコード分類モデルにおいて精度の低下を引き起こす。
3)表現に基づく分布シフトは,モデルに他よりも大きな影響を与える。
4) 事前学習モデルの方が分布シフトに抵抗性が高い。
CodeSを公開し、コード学習モデルの品質評価に関するフォローアップ調査を可能にします。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - Is Next Token Prediction Sufficient for GPT? Exploration on Code Logic Comprehension [18.919972400933393]
我々は、先進的な事前訓練タスク「Next Token Prediction+」を提案する。
この事前トレーニングに続いて、コードドメイン事前トレーニングモデルであるCode LlamaとStarCoderの両方が、論理的に等価なコード選択タスクとコード補完タスクに大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-13T03:11:07Z) - INSPECT: Intrinsic and Systematic Probing Evaluation for Code
Transformers [7.255653248042546]
我々は、ソースコードの表面、構文、構造、意味的特性を訓練する15の探索タスクを定義するためにフレームワークを使用します。
8つの事前訓練されたソースコードモデルと、ベースラインとして自然言語モデル(BERT)を探索する。
構造情報(GraphCodeBERTなど)を組み込んだモデルの方が,ソースコードの特徴をよりよく表現できることがわかった。
論文 参考訳(メタデータ) (2023-12-08T15:21:54Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Bias Testing and Mitigation in LLM-based Code Generation [23.787124657688267]
本稿では,コード生成タスクに特化して設計された新しいバイアステストフレームワークを提案する。
調査対象のモデルが生成するコード関数の20.29%から44.93%が偏りに敏感なタスクを扱う際に偏りがあることがわかった。
コード生成モデルのバイアスを軽減するため、我々は5つのバイアス軽減プロンプト戦略を評価する。
論文 参考訳(メタデータ) (2023-09-03T07:14:49Z) - NatGen: Generative pre-training by "Naturalizing" source code [18.410818213965918]
我々は,ソースコードの「成熟化」という新たな事前学習目標を提案する。
自然言語とは異なり、コードのバイモーダルでデュアルチャネルの性質により、意味論的に等価なコードを大規模に生成することができます。
私たちは、CodeT5に匹敵する最先端のパフォーマンスを達成するために、3つの生成ソフトウェアエンジニアリングタスクでモデルを微調整します。
論文 参考訳(メタデータ) (2022-06-15T15:08:29Z) - WILDS: A Benchmark of in-the-Wild Distribution Shifts [157.53410583509924]
分散シフトは、ワイルドにデプロイされた機械学習システムの精度を実質的に低下させることができる。
分散シフトの多様な範囲を反映した8つのベンチマークデータセットのキュレーションコレクションであるWILDSを紹介します。
本研究は, 標準訓練の結果, 分布性能よりも, 分布域外性能が有意に低下することを示す。
論文 参考訳(メタデータ) (2020-12-14T11:14:56Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。