論文の概要: CodeInsight: A Curated Dataset of Practical Coding Solutions from Stack Overflow
- arxiv url: http://arxiv.org/abs/2409.16819v1
- Date: Wed, 25 Sep 2024 11:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 04:05:48.736322
- Title: CodeInsight: A Curated Dataset of Practical Coding Solutions from Stack Overflow
- Title(参考訳): CodeInsight: スタックオーバーフローによる実用的なコーディングソリューションのキュレートされたデータセット
- Authors: Nathanaël Beau, Benoît Crabbé,
- Abstract要約: データセットは、明確化インテント、コードスニペットの関連、関連する3つのユニットテストの平均を含む例を提供する。
Pythonの専門家が作成した3,409の例を補完する私たちのデータセットは、モデル微調整とスタンドアロン評価の両方のために設計されています。
- 参考スコア(独自算出の注目度): 10.19019476978683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel dataset tailored for code generation, aimed at aiding developers in common tasks. Our dataset provides examples that include a clarified intent, code snippets associated, and an average of three related unit tests. It encompasses a range of libraries such as \texttt{Pandas}, \texttt{Numpy}, and \texttt{Regex}, along with more than 70 standard libraries in Python code derived from Stack Overflow. Comprising 3,409 crafted examples by Python experts, our dataset is designed for both model finetuning and standalone evaluation. To complete unit tests evaluation, we categorize examples in order to get more fine grained analysis, enhancing the understanding of models' strengths and weaknesses in specific coding tasks. The examples have been refined to reduce data contamination, a process confirmed by the performance of three leading models: Mistral 7B, CodeLLaMa 13B, and Starcoder 15B. We further investigate data-contamination testing GPT-4 performance on a part of our dataset. The benchmark can be accessed at \url{https://github.com/NathanaelBeau/CodeInsight}.
- Abstract(参考訳): 共通タスクで開発者を支援することを目的とした、コード生成に適した新しいデータセットを紹介します。
私たちのデータセットでは、明確化インテント、コードスニペットの関連、関連する3つのユニットテストの平均といった例を提供しています。
Stack Overflowから派生したPythonコードで70以上の標準ライブラリとともに、 \texttt{Pandas}、 \texttt{Numpy}、 \texttt{Regex}のようなライブラリを含む。
Pythonの専門家が作成した3,409の例を補完する私たちのデータセットは、モデル微調整とスタンドアロン評価の両方のために設計されています。
単体テストの評価を完了させるために、よりきめ細かい分析をするために例を分類し、特定のコーディングタスクにおけるモデルの長所と短所の理解を深める。
これはMistral 7B、CodeLLaMa 13B、Starcoder 15Bの3つの主要なモデルのパフォーマンスによって確認されたプロセスである。
さらに,データ汚染試験GPT-4の性能について検討した。
ベンチマークは \url{https://github.com/NathanaelBeau/CodeInsight} でアクセスすることができる。
関連論文リスト
- Leveraging Large Language Models in Code Question Answering: Baselines and Issues [0.1617522438111378]
本稿では,Pythonのソースコードに対する質問応答のために,大規模言語モデルを用いた研究について述べる。
提案手法は,Pythonコードの問合せと解答の統一データセット上で,大規模言語モデルを微調整することを含む。
手動エラー解析の結果とともに,BLEU-4,BERTScore F1,BLEURT,Exact Matchの測定値について報告する。
論文 参考訳(メタデータ) (2024-11-05T11:25:12Z) - Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。
コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。
実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文 参考訳(メタデータ) (2024-09-20T14:49:51Z) - How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data [26.836532205017104]
多くのデータセットが深刻なデータ漏洩に悩まされていることが分かりました。
この発見は、どのデータセットが真に高品質なコード命令データであるかを識別する、という新しい課題を明らかにしている。
我々は、LLaMA3から微調整されたモデルのファミリーであるXCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-05T17:46:30Z) - On Leakage of Code Generation Evaluation Datasets [44.4726918027046]
コード生成テストセットによる汚染について考察する。
これを解決するために、LBPP(Less Basic Python Problems)をリリースします。
論文 参考訳(メタデータ) (2024-07-10T11:50:20Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Execution-based Evaluation for Data Science Code Generation Models [97.96608263010913]
データサイエンスコード生成タスクの実行評価のための評価データセットであるExeDSを紹介する。
ExeDSにはJupyter Notebooksの534の問題が含まれており、それぞれがコードコンテキスト、タスク記述、参照プログラム、望ましい実行出力で構成されている。
表面形状評価スコアを高い精度で達成した5つの最先端コード生成モデルの実行性能を評価する。
論文 参考訳(メタデータ) (2022-11-17T07:04:11Z) - On the Importance of Building High-quality Training Datasets for Neural
Code Search [15.557818317497397]
本稿では,ルールベース構文フィルタとモデルベースセマンティックフィルタという,次の2つのフィルタからなるデータクリーニングフレームワークを提案する。
2つの広く使われているコード検索モデルと3つの手動アノテーション付きコード検索ベンチマークにおけるフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-14T12:02:41Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。