論文の概要: Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs
- arxiv url: http://arxiv.org/abs/2311.03365v1
- Date: Sat, 14 Oct 2023 12:09:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-12 19:47:03.452802
- Title: Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs
- Title(参考訳): 生成aiを活用する: 生成コード-コミットペアによるソフトウェアメタデータの分類を改善する
- Authors: Samah Syed and Angel Deborah S
- Abstract要約: ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In software development, code comments play a crucial role in enhancing code
comprehension and collaboration. This research paper addresses the challenge of
objectively classifying code comments as "Useful" or "Not Useful." We propose a
novel solution that harnesses contextualized embeddings, particularly BERT, to
automate this classification process. We address this task by incorporating
generated code and comment pairs. The initial dataset comprised 9048 pairs of
code and comments written in C, labeled as either Useful or Not Useful. To
augment this dataset, we sourced an additional 739 lines of code-comment pairs
and generated labels using a Large Language Model Architecture, specifically
BERT. The primary objective was to build classification models that can
effectively differentiate between useful and not useful code comments. Various
machine learning algorithms were employed, including Logistic Regression,
Decision Tree, K-Nearest Neighbors (KNN), Support Vector Machine (SVM),
Gradient Boosting, Random Forest, and a Neural Network. Each algorithm was
evaluated using precision, recall, and F1-score metrics, both with the original
seed dataset and the augmented dataset. This study showcases the potential of
generative AI for enhancing binary code comment quality classification models,
providing valuable insights for software developers and researchers in the
field of natural language processing and software engineering.
- Abstract(参考訳): ソフトウェア開発において、コードコメントはコードの理解とコラボレーションを強化する上で重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
生成されたコードとコメントペアを組み込むことで、この問題に対処する。
最初のデータセットは9048対のコードとCで書かれたコメントで構成されており、UsefulかNot Usefulとラベル付けられている。
このデータセットを補強するために、私たちはさらに739行のコードコミットペアと生成されたラベルを、大きな言語モデルアーキテクチャ、特にbertを使ってオープンソース化しました。
主な目的は、有用なコードコメントと役に立たないコードコメントを効果的に区別できる分類モデルを構築することだった。
Logistic Regression, Decision Tree, K-Nearest Neighbors (KNN), Support Vector Machine (SVM), Gradient Boosting, Random Forest, Neural Networkなど,さまざまな機械学習アルゴリズムが採用されている。
各アルゴリズムは、元のシードデータセットと拡張データセットの両方を用いて、精度、リコール、およびf1-scoreメトリックを用いて評価された。
この研究は、バイナリコードコメント品質分類モデルを強化するための生成AIの可能性を示し、自然言語処理とソフトウェア工学の分野におけるソフトウェア開発者と研究者に貴重な洞察を提供する。
関連論文リスト
- Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。
コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。
実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文 参考訳(メタデータ) (2024-09-20T14:49:51Z) - GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization
in Programming Language Understanding [5.9535699822923]
我々は,言語モデルの言語理解能力を評価するために,GenCodeSearchNet (GeCS) という新しいベンチマークデータセットを提案する。
完全なデータセットの一部として、我々が導入した新しい手作業でキュレートされたサブセットであるStatCodeSearchは、人気があるが、これまでのところあまり表現されていないプログラミング言語である。
評価と比較のために、細調整されたBERTスタイルモデルとGPTスタイルの大規模言語モデルを用いて、いくつかのベースライン結果を収集した。
論文 参考訳(メタデータ) (2023-11-16T09:35:00Z) - Generative AI for Software Metadata: Overview of the Information
Retrieval in Software Engineering Track at FIRE 2023 [18.616716369775883]
Information Retrieval in Software Engineering (IRSE)トラックは、コードコメントの自動評価ソリューションの開発を目的としている。
データセットは9048のコードコメントと、オープンソースCベースのプロジェクトから抽出されたコードスニペットペアで構成されている。
大きな言語モデルから生成されたラベルは、予測モデルのバイアスを増加させるが、過度に適合しない結果をもたらす。
論文 参考訳(メタデータ) (2023-10-27T14:13:23Z) - Enhancing Binary Code Comment Quality Classification: Integrating
Generative AI for Improved Accuracy [0.0]
本報告では、生成コードとコメントペアを統合することにより、バイナリコードコメント品質分類モデルの強化に焦点を当てる。
データセットは、C言語で書かれた9048のコードとコメントで構成され、それぞれが"Useful"または"Not Useful"と注釈付けされている。
この取り組みの結果は、2つの分類モデルで構成されている。1つは元のデータセットを利用しており、もう1つは新しく生成されたコードコメントペアとラベルに拡張データセットを組み込んでいる。
論文 参考訳(メタデータ) (2023-10-14T18:19:06Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Retrieve and Refine: Exemplar-based Neural Comment Generation [27.90756259321855]
同様のコードスニペットのコメントはコメントの生成に役立ちます。
我々は、与えられたコード、AST、類似したコード、そして入力として見劣りする新しいセク2seqニューラルネットワークを設計する。
約200万のサンプルを含む大規模Javaコーパスに対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-10-09T09:33:10Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。