Fugu-MT 論文翻訳(概要): CodeLL: A Lifelong Learning Dataset to Support the Co-Evolution of Data and Language Models of Code

論文の概要: CodeLL: A Lifelong Learning Dataset to Support the Co-Evolution of Data and Language Models of Code

arxiv url: http://arxiv.org/abs/2312.12492v1
Date: Wed, 20 Dec 2023 01:20:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 18:16:26.727054
Title: CodeLL: A Lifelong Learning Dataset to Support the Co-Evolution of Data and Language Models of Code
Title（参考訳）: codell: コードのデータと言語モデルの共同進化をサポートする、生涯学習データセット
Authors: Martin Weyssow, Claudio Di Sipio, Davide Di Ruscio, and Houari Sahraoui
Abstract要約: コード変更に焦点を当てた生涯学習データセットであるCodeLLを紹介します。私たちのデータセットは、オープンソースソフトウェアリポジトリのリリース履歴全体にわたるコード変更を包括的にキャプチャすることを目的としています。 CodeLLは、コード変更を学ぶための生涯にわたる微調整設定において、LMの振る舞いを研究することができる。
参考スコア（独自算出の注目度）: 6.491009626125319
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Motivated by recent work on lifelong learning applications for language models (LMs) of code, we introduce CodeLL, a lifelong learning dataset focused on code changes. Our contribution addresses a notable research gap marked by the absence of a long-term temporal dimension in existing code change datasets, limiting their suitability in lifelong learning scenarios. In contrast, our dataset aims to comprehensively capture code changes across the entire release history of open-source software repositories. In this work, we introduce an initial version of CodeLL, comprising 71 machine-learning-based projects mined from Software Heritage. This dataset enables the extraction and in-depth analysis of code changes spanning 2,483 releases at both the method and API levels. CodeLL enables researchers studying the behaviour of LMs in lifelong fine-tuning settings for learning code changes. Additionally, the dataset can help studying data distribution shifts within software repositories and the evolution of API usages over time.
Abstract（参考訳）: コードの言語モデル(LM)の生涯学習アプリケーションに関する最近の研究に触発され、コードの変更に焦点を当てた生涯学習データセットであるCodeLLを紹介した。我々の貢献は、既存のコード変更データセットに長期的な時間次元がないことに特徴付けられる注目すべき研究ギャップに対処します。対照的に、私たちのデータセットは、オープンソースソフトウェアリポジトリのリリース履歴全体にわたるコード変更を包括的にキャプチャすることを目的としています。本稿では,ソフトウェア遺産から発掘された71の機械学習プロジェクトからなるcodellの初期バージョンを紹介する。このデータセットは、メソッドとAPIレベルで2,483のリリースにまたがるコード変更の抽出と詳細な分析を可能にする。 codellは、コード変更を学習するための生涯の微調整設定におけるlmsの振る舞いを研究することができる。さらに、データセットは、ソフトウェアリポジトリ内のデータの分散シフトと、時間とともにapiの使用方法の進化を研究するのに役立つ。

関連論文リスト

A Vulnerability Code Intent Summary Dataset [3.609135490386991]
本稿では,BADS と呼ばれる大規模多視点コードインテント・サマリ・データセットを提案する。与えられたコードスニペットの理解を高め、コード開発プロセスのリスクを低減することを目的としている。データセットと関連ツールがGitHubで公開されている。
論文参考訳（メタデータ） (2025-04-11T00:39:50Z)
ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。 Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文参考訳（メタデータ） (2025-03-27T23:08:53Z)
CODESYNC: Synchronizing Large Language Models with Dynamic Code Evolution at Scale [39.54772602678732]
本稿では,古いコードパターンを識別するデータエンジンであるCODESYNCを紹介する。 CODESYNCをベースとしたCODESYNCBENCHは,CODESYNCBENCH(CODESYNCBENCH)という,大規模言語モデルのコード進化と同期する能力を評価するベンチマークである。
論文参考訳（メタデータ） (2025-02-23T16:46:18Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
Codellm-Devkit: A Framework for Contextualizing Code LLMs with Program Analysis Insights [9.414198519543564]
codellm-devkit (以下, CLDK') は,プログラム解析のプロセスを大幅に単純化したオープンソースライブラリである。 CLDKは開発者に対して直感的でユーザフレンドリなインターフェースを提供しています。
論文参考訳（メタデータ） (2024-10-16T20:05:59Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
A Survey on Large Language Models for Code Generation [9.555952109820392]
大規模言語モデル(LLM)は、様々なコード関連のタスクで顕著な進歩を遂げています。本調査は、総合的かつ最新の文献レビューを提供することで、学界と実践的発展のギャップを埋めることを目的としている。
論文参考訳（メタデータ） (2024-06-01T17:48:15Z)
AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文参考訳（メタデータ） (2024-05-29T16:57:33Z)
CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文参考訳（メタデータ） (2024-04-08T21:15:36Z)
Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文参考訳（メタデータ） (2024-02-20T13:56:38Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
InstructCoder: Instruction Tuning Large Language Models for Code Editing [26.160498475809266]
ユーザインストラクションに基づいたコード編集にLLM(Large Language Models)を用いる方法について検討する。 InstructCoderは、汎用コード編集にLLMを適用するために設計された最初の命令チューニングデータセットである。 InstructCoderで微調整されたオープンソースのLLMは、コード編集の精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-10-31T10:15:35Z)
TASTY: A Transformer based Approach to Space and Time complexity [0.4724825031148411]
コードベース言語モデル(LM)は、ソフトウェア工学の分野で非常に有望な結果を示している。複数の言語にまたがるコードスニペットのラベル付きデータセットを作成します。私たちは、コードから空間の複雑さを見つけるのにLMを使うことを提案しています。
論文参考訳（メタデータ） (2023-05-06T03:37:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。