Fugu-MT 論文翻訳(概要): SnipGen: A Mining Repository Framework for Evaluating LLMs for Code

論文の概要: SnipGen: A Mining Repository Framework for Evaluating LLMs for Code

arxiv url: http://arxiv.org/abs/2502.07046v1
Date: Mon, 10 Feb 2025 21:28:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:47.885482
Title: SnipGen: A Mining Repository Framework for Evaluating LLMs for Code
Title（参考訳）: SnipGen: コードのためのLLMを評価するためのマイニングリポジトリフレームワーク
Authors: Daniel Rodriguez-Cardenas, Alejandro Velasco, Denys Poshyvany,
Abstract要約: 言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
参考スコア（独自算出の注目度）: 44.99833362998488
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Language Models (LLMs), such as transformer-based neural networks trained on billions of parameters, have become increasingly prevalent in software engineering (SE). These models, trained on extensive datasets that include code repositories, exhibit remarkable capabilities for SE tasks. However, evaluating their effectiveness poses significant challenges, primarily due to the potential overlap between the datasets used for training and those employed for evaluation. To address this issue, we introduce SnipGen, a comprehensive repository mining framework designed to leverage prompt engineering across various downstream tasks for code generation. SnipGen aims to mitigate data contamination by generating robust testbeds and crafting tailored data points to assist researchers and practitioners in evaluating LLMs for code-related tasks. In our exploratory study, SnipGen mined approximately 227K data points from 338K recent code changes in GitHub commits, focusing on method-level granularity. SnipGen features a collection of prompt templates that can be combined to create a Chain-of-Thought-like sequence of prompts, enabling a nuanced assessment of LLMs' code generation quality. By providing the mining tool, the methodology, and the dataset, SnipGen empowers researchers and practitioners to rigorously evaluate and interpret LLMs' performance in software engineering contexts.
Abstract（参考訳）: 数十億のパラメータでトレーニングされたトランスフォーマーベースのニューラルネットワークのような言語モデル(LLM)は、ソフトウェア工学(SE)においてますます普及している。これらのモデルは、コードリポジトリを含む広範なデータセットに基づいてトレーニングされ、SEタスクの素晴らしい機能を示す。しかしながら、それらの有効性を評価することは、主にトレーニングに使用されるデータセットと評価に使用されるデータセットの重複により、大きな課題を引き起こす。この問題に対処するために、コード生成のために様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークであるSnipGenを紹介します。 SnipGenは、堅牢なテストベッドを生成し、適切なデータポイントを作成して、研究者や実践者がコード関連のタスクにLLMを評価するのを支援することで、データの汚染を軽減することを目的としている。探索的な調査で、SnipGenは、GitHubコミットの最近の338万のコード変更から約227万のデータポイントをマイニングし、メソッドレベルの粒度に焦点を当てた。 SnipGenには、Chain-of-Thoughtのようなプロンプトシーケンスを生成するために組み合わせられるプロンプトテンプレートのコレクションがあり、LLMのコード生成品質の微妙な評価を可能にする。マイニングツール、方法論、データセットを提供することで、SnipGenは研究者や実践者がソフトウェア工学の文脈でLLMのパフォーマンスを厳格に評価し、解釈できるようにします。

関連論文リスト

OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
CSR-Bench: Benchmarking LLM Agents in Deployment of Computer Science Research Repositories [4.579838836114489]
大規模言語モデル(LLM)は、コンピュータ科学研究の様々な分野において大きな進歩を見せている。我々はコンピュータサイエンス研究プロジェクトのベンチマークであるCSR-Benchを紹介する。また、複数のLLMエージェントを使用してGitHubコードリポジトリのデプロイを自動化する新しいフレームワーク、CSR-Agentsも導入しました。
論文参考訳（メタデータ） (2025-02-10T02:46:29Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
zsLLMCode: An Effective Approach for Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
本稿では,大言語モデル(LLM)と文埋め込みモデルを用いて,新たなゼロショット手法であるzsLLMCodeを提案する。その結果,最先端の教師なしアプローチに対する提案手法の有効性と優位性を実証した。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models [54.51932175059004]
本稿では,大規模言語モデルのコード生成能力を高めるために,合成命令を生成するスケーラブルな手法を提案する。提案したアルゴリズムは進化過程を模倣し、自己インストラクションを利用して限られた数の種子から多数の合成サンプルを生成する。
論文参考訳（メタデータ） (2024-07-29T20:42:59Z)
Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文参考訳（メタデータ） (2024-07-17T11:35:00Z)
Code Less, Align More: Efficient LLM Fine-tuning for Code Generation with Data Pruning [4.975728472540823]
各種クラスタリングとプルーニングのメトリクスを統合して、生成されたコードの正確性や機能を損なうことなく、トレーニングデータを選択的に削減する手法を提案する。実験により,これらのプルーニング戦略は,必要な計算資源を削減するだけでなく,全体的な品質コード生成を向上することが示された。
論文参考訳（メタデータ） (2024-07-06T10:30:43Z)
A Survey on Large Language Models for Code Generation [9.555952109820392]
大規模言語モデル(LLM)は、様々なコード関連のタスクで顕著な進歩を遂げています。本調査は、総合的かつ最新の文献レビューを提供することで、学界と実践的発展のギャップを埋めることを目的としている。
論文参考訳（メタデータ） (2024-06-01T17:48:15Z)
CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文参考訳（メタデータ） (2024-04-08T21:15:36Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation with Large Language Models [11.845239346943067]
パラメータ効率のよい微調整(PEFT)は、大規模言語モデル(LLM)をタスク固有のデータに効率的に専門化するための有望なアプローチである。本研究は,PEFTと量子化を組み合わせることで,より大きなLCMをチューニングし,メモリ使用量を大幅に削減する可能性を明らかにする。
論文参考訳（メタデータ） (2023-08-21T04:31:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。