Fugu-MT 論文翻訳(概要): SEART Data Hub: Streamlining Large-Scale Source Code Mining and Pre-Processing

論文の概要: SEART Data Hub: Streamlining Large-Scale Source Code Mining and Pre-Processing

arxiv url: http://arxiv.org/abs/2409.18658v1
Date: Fri, 27 Sep 2024 11:42:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-01 18:11:57.470724
Title: SEART Data Hub: Streamlining Large-Scale Source Code Mining and Pre-Processing
Title（参考訳）: SEART Data Hub: 大規模ソースコードマイニングとプレプロセスの合理化
Authors: Ozren Dabić, Rosalia Tufano, Gabriele Bavota,
Abstract要約: 私たちはSEART Data HubというWebアプリケーションを紹介します。これは、公開GitHubリポジトリからマイニングされたコードを特徴とする大規模データセットを簡単に構築し、事前処理できるWebアプリケーションです。簡単なWebインターフェースを通じて、研究者はマイニング基準と、実行したい特定の前処理ステップを指定できる。リクエストを提出すると、ユーザは数時間以内に、必要なデータセットのダウンロードリンク付きのメールを受け取る。
参考スコア（独自算出の注目度）: 13.717170962455526
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale code datasets have acquired an increasingly central role in software engineering (SE) research. This is the result of (i) the success of the mining software repositories (MSR) community, that pushed the standards of empirical studies in SE; and (ii) the recent advent of deep learning (DL) in software engineering, with models trained and tested on large source code datasets. While there exist some ready-to-use datasets in the literature, researchers often need to build and pre-process their own dataset to meet specific requirements of the study/technique they are working on. This implies a substantial cost in terms of time and computational resources. In this work we present the SEART Data Hub, a web application that allows to easily build and pre-process large-scale datasets featuring code mined from public GitHub repositories. Through a simple web interface, researchers can specify a set of mining criteria (e.g., only collect code from repositories having more than 100 contributors and more than 1,000 commits) as well as specific pre-processing steps they want to perform (e.g., remove duplicates, test code, instances with syntax errors). After submitting the request, the user will receive an email with a download link for the required dataset within a few hours. A video showcasing the SEART Data Hub is available at https://youtu.be/lCgQaA7CYWA.
Abstract（参考訳）: 大規模コードデータセットは、ソフトウェアエンジニアリング(SE)研究において、ますます中心的な役割を担っている。これが結果です (i)SEにおける実証研究の標準を推進したマイニングソフトウェアリポジトリ(MSR)コミュニティの成功 (ii) ソフトウエアエンジニアリングにおける近年のディープラーニング(DL)の出現。文献に使えるデータセットはいくつかあるが、研究者たちは、彼らが取り組んでいる研究/技術に関する特定の要件を満たすために、独自のデータセットを構築し、前処理する必要があることが多い。これは時間と計算資源の点でかなりのコストがかかることを意味する。この作業では、公開GitHubリポジトリから採掘されたコードを特徴とする大規模データセットを簡単に構築および前処理できるWebアプリケーションであるSEART Data Hubを紹介します。単純なWebインターフェースを通じて、研究者はマイニング基準(例:100以上のコントリビュータと1000以上のコミットを持つリポジトリからのみコードを集める)と、実行したい特定の前処理ステップ(例:重複の削除、テストコード、構文エラーのあるインスタンス)を指定できる。リクエストを提出すると、ユーザは数時間以内に、必要なデータセットのダウンロードリンク付きのメールを受け取る。 SEART Data Hubを紹介するビデオはhttps://youtu.be/lCgQaA7CYWA.comで公開されている。

関連論文リスト

SWE-smith: Scaling Data for Software Engineering Agents [100.30273957706237]
SWE-smithは、大規模なソフトウェアエンジニアリングトレーニングデータを生成するための新しいパイプラインである。 128のGitHubリポジトリからソースされた50kインスタンスのデータセットを作成します。我々はSWE-agent-LM-32Bをトレーニングし、SWE-bench Verifiedベンチマークで40.2%のPass@1リゾルバ率を達成した。
論文参考訳（メタデータ） (2025-04-30T16:56:06Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
Cuvis.Ai: An Open-Source, Low-Code Software Ecosystem for Hyperspectral Processing and Classification [0.4038539043067986]
cuvis.aiは、データ取得、前処理、モデルトレーニングのためのオープンソースでローコードなソフトウェアエコシステムである。パッケージはPythonで書かれており、一般的な機械学習ライブラリのラッパーを提供する。
論文参考訳（メタデータ） (2024-11-18T06:33:40Z)
Towards a Classification of Open-Source ML Models and Datasets for Software Engineering [52.257764273141184]
オープンソースの事前訓練モデル(PTM)とデータセットは、さまざまな機械学習(ML)タスクに広範なリソースを提供する。これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がない。我々は、人気のあるオープンソースのMLリポジトリであるHugging Face (HF)上で、SE指向の分類をPTMとデータセットに適用し、時間とともにPTMの進化を分析する。
論文参考訳（メタデータ） (2024-11-14T18:52:05Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文参考訳（メタデータ） (2024-06-17T14:58:29Z)
DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価するこのモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文参考訳（メタデータ） (2024-03-29T22:59:34Z)
Generating QM1B with PySCF$_{\text{IPU}}$ [40.29005019051567]
本稿では,インテリジェンス処理ユニット(IPU)を用いたデータジェネレータPySCF$_textIPU$を紹介する。これにより、9-11重原子を含む10億のトレーニング例でデータセットのQM1Bを作成することができます。 QM1Bのいくつかの制限を強調し、DFTオプションの低解像度を強調します。
論文参考訳（メタデータ） (2023-11-02T10:31:20Z)
Fingerprinting and Building Large Reproducible Datasets [3.2873782624127843]
提案手法は,大規模なデータセットの作成を容易にし,その証明を確実にするツール支援手法である。抽出プロセスに提供されたデータセットを特徴付けるユニークな指紋を定義する方法を提案する。
論文参考訳（メタデータ） (2023-06-20T08:59:33Z)
Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.724842920942024]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。本研究では,データ分析エージェントであるData-Copilotを提案する。
論文参考訳（メタデータ） (2023-06-12T16:12:56Z)
JEMMA: An Extensible Java Dataset for ML4Code Applications [34.76698017961728]
我々は、機械学習・フォー・ソース・コード(ML4Code)をターゲットにした大規模で多様な高品質なデータセットであるJEMMAを紹介した。 JEMMAの目標は、ソースコードモデルとタスクを試すためのビルディングブロックを提供することで、ML4Codeへの参入障壁を低くすることにあります。 JEMMAには、メタデータ、表現(コードトークン、AST、グラフなど)、いくつかのプロパティといった、かなり多くの事前処理された情報が含まれている。
論文参考訳（メタデータ） (2022-12-18T17:04:14Z)
KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。 KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文参考訳（メタデータ） (2020-09-04T15:32:19Z)
MSC: A Dataset for Macro-Management in StarCraft II [52.52008929278214]
プラットフォームSC2LEに基づいた新しいマクロ管理データセットをリリースする。 MSCは、よく設計された特徴ベクトル、事前定義されたハイレベルアクション、および各マッチの最終結果からなる。データセットの他に,グローバルな状態評価とビルド順序予測のためのベースラインモデルと初期ベースライン結果を提案する。
論文参考訳（メタデータ） (2017-10-09T14:59:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。