Fugu-MT 論文翻訳(概要): JEMMA: An Extensible Java Dataset for ML4Code Applications

論文の概要: JEMMA: An Extensible Java Dataset for ML4Code Applications

arxiv url: http://arxiv.org/abs/2212.09132v1
Date: Sun, 18 Dec 2022 17:04:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 18:53:45.656469
Title: JEMMA: An Extensible Java Dataset for ML4Code Applications
Title（参考訳）: JEMMA:ML4Codeアプリケーションのための拡張可能なJavaデータセット
Authors: Anjan Karmakar, Miltiadis Allamanis, Romain Robbes
Abstract要約: 我々は、機械学習・フォー・ソース・コード(ML4Code)をターゲットにした大規模で多様な高品質なデータセットであるJEMMAを紹介した。 JEMMAの目標は、ソースコードモデルとタスクを試すためのビルディングブロックを提供することで、ML4Codeへの参入障壁を低くすることにあります。 JEMMAには、メタデータ、表現(コードトークン、AST、グラフなど)、いくつかのプロパティといった、かなり多くの事前処理された情報が含まれている。
参考スコア（独自算出の注目度）: 34.76698017961728
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine Learning for Source Code (ML4Code) is an active research field in which extensive experimentation is needed to discover how to best use source code's richly structured information. With this in mind, we introduce JEMMA, an Extensible Java Dataset for ML4Code Applications, which is a large-scale, diverse, and high-quality dataset targeted at ML4Code. Our goal with JEMMA is to lower the barrier to entry in ML4Code by providing the building blocks to experiment with source code models and tasks. JEMMA comes with a considerable amount of pre-processed information such as metadata, representations (e.g., code tokens, ASTs, graphs), and several properties (e.g., metrics, static analysis results) for 50,000 Java projects from the 50KC dataset, with over 1.2 million classes and over 8 million methods. JEMMA is also extensible allowing users to add new properties and representations to the dataset, and evaluate tasks on them. Thus, JEMMA becomes a workbench that researchers can use to experiment with novel representations and tasks operating on source code. To demonstrate the utility of the dataset, we also report results from two empirical studies on our data, ultimately showing that significant work lies ahead in the design of context-aware source code models that can reason over a broader network of source code entities in a software project, the very task that JEMMA is designed to help with.
Abstract（参考訳）: マシンラーニング・フォー・ソースコード(ml4code)は、ソースコードのリッチな構造化情報の使用方法を発見するために、広範囲な実験が必要となる活発な研究分野である。 JEMMA(Extensible Java Dataset for ML4Code Applications)はML4Codeをターゲットにした大規模で多種多様な高品質なデータセットである。 JEMMAの目標は、ソースコードモデルとタスクを試すためのビルディングブロックを提供することで、ML4Codeへの参入障壁を低くすることにあります。 JEMMAには、メタデータ、表現(例えば、コードトークン、AST、グラフ)、および50KCデータセットから5万件のJavaプロジェクトのためのいくつかのプロパティ(例えば、メトリクス、静的解析結果)、120万以上のクラスと800万以上のメソッドなど、かなり多くの事前処理された情報が含まれている。 JEMMAは拡張可能で、ユーザーはデータセットに新しいプロパティや表現を追加し、タスクを評価することができる。このようにして、JEMMAは研究者が新しい表現やソースコードで動作するタスクを実験できるワークベンチとなる。データセットの有用性を示すために、データに関する2つの実証研究の結果を報告します。最終的には、ソフトウェアプロジェクトにおけるソースコードエンティティの広範なネットワーク上で推論可能なコンテキスト対応ソースコードモデルの設計において、jemmaが支援するために設計したタスクにおいて、重要な作業が先行していることを示しています。

関連論文リスト

On LLM-Assisted Generation of Smart Contracts from Business Processes [0.08192907805418582]
大規模言語モデル(LLM)は、ソフトウェアの生成方法の現実を変えました。本稿では、ビジネスプロセス記述からスマートコントラクトコードを生成するためのLCMの使用について探索的研究を行う。以上の結果から,LLMの性能はスマートコントラクト開発に必要な信頼性に劣ることがわかった。
論文参考訳（メタデータ） (2025-07-30T20:39:45Z)
A Vulnerability Code Intent Summary Dataset [3.609135490386991]
本稿では,BADS と呼ばれる大規模多視点コードインテント・サマリ・データセットを提案する。与えられたコードスニペットの理解を高め、コード開発プロセスのリスクを低減することを目的としている。データセットと関連ツールがGitHubで公開されている。
論文参考訳（メタデータ） (2025-04-11T00:39:50Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
SEART Data Hub: Streamlining Large-Scale Source Code Mining and Pre-Processing [13.717170962455526]
私たちはSEART Data HubというWebアプリケーションを紹介します。これは、公開GitHubリポジトリからマイニングされたコードを特徴とする大規模データセットを簡単に構築し、事前処理できるWebアプリケーションです。簡単なWebインターフェースを通じて、研究者はマイニング基準と、実行したい特定の前処理ステップを指定できる。リクエストを提出すると、ユーザは数時間以内に、必要なデータセットのダウンロードリンク付きのメールを受け取る。
論文参考訳（メタデータ） (2024-09-27T11:42:19Z)
LLM-Based Test-Driven Interactive Code Generation: User Study and Empirical Evaluation [13.800675921118348]
本稿では,ガイド付き意図明確化のための対話型ワークフローTiCoderを提案する。コード生成精度を向上させるためのワークフローの有効性を実証的に評価する。我々は,5つのユーザインタラクション内において,データセットと全LLMのパス@1コード生成精度が平均45.97%向上したことを観察した。
論文参考訳（メタデータ） (2024-04-15T19:16:32Z)
WebCode2M: A Real-World Dataset for Code Generation from Webpage Designs [49.91550773480978]
本稿では256万のインスタンスからなる新しいデータセットであるWebCode2Mを紹介する。 WebCode2Mの有効性を検証するため,WebCoderという名称のVision Transformer(ViT)に基づくベースラインモデルを導入し,公正比較のためのベンチマークを確立する。ベンチマークの結果、我々のデータセットは、Webページの設計からコードを生成するMLLMの能力を大幅に改善することを示した。
論文参考訳（メタデータ） (2024-04-09T15:05:48Z)
CodeLL: A Lifelong Learning Dataset to Support the Co-Evolution of Data and Language Models of Code [6.491009626125319]
コード変更に焦点を当てた生涯学習データセットであるCodeLLを紹介します。私たちのデータセットは、オープンソースソフトウェアリポジトリのリリース履歴全体にわたるコード変更を包括的にキャプチャすることを目的としています。 CodeLLは、コード変更を学ぶための生涯にわたる微調整設定において、LMの振る舞いを研究することができる。
論文参考訳（メタデータ） (2023-12-20T01:20:24Z)
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。 LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文参考訳（メタデータ） (2023-12-11T09:44:41Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Towards the Imagenets of ML4EDA [24.696892205786742]
We describe our experience curating two-scale, high-quality datasets for Verilog code generation and logic synthesis。最初のVeriGenは、GitHubとVerilogの教科書から収集されたVerilogコードのデータセットである。 2番目のOpenABC-DはMLの論理合成を支援するために設計された大規模ラベル付きデータセットである。
論文参考訳（メタデータ） (2023-10-16T16:35:03Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。 CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文参考訳（メタデータ） (2023-05-31T05:24:48Z)
Many or Few Samples? Comparing Transfer, Contrastive and Meta-Learning in Encrypted Traffic Classification [68.19713459228369]
我々は、トランスファーラーニング、メタラーニング、コントラストラーニングを、参照機械学習(ML)ツリーベースおよびモノリシックDLモデルと比較する。 i) 大規模なデータセットを用いて,より一般的な表現を得られること,(ii) コントラスト学習が最良の手法であることを示している。 MLツリーベースでは大きなタスクは処理できないが、学習した表現を再利用することで、小さなタスクにも適合するが、DLメソッドはツリーベースモデルのパフォーマンスにも到達している。
論文参考訳（メタデータ） (2023-05-21T11:20:49Z)
XLCoST: A Benchmark Dataset for Cross-lingual Code Intelligence [9.673614921946932]
本稿では,言語間コードインテリジェンスのための新しいベンチマークデータセットであるXLCoST, Cross-Lingual Code SnippeTデータセットを紹介する。データセットには8言語からの詳細な並列データが含まれており、10の言語間コードタスクをサポートしている。
論文参考訳（メタデータ） (2022-06-16T22:49:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。