論文の概要: Enhancing Binary Code Comment Quality Classification: Integrating
Generative AI for Improved Accuracy
- arxiv url: http://arxiv.org/abs/2310.11467v1
- Date: Sat, 14 Oct 2023 18:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 18:57:44.737895
- Title: Enhancing Binary Code Comment Quality Classification: Integrating
Generative AI for Improved Accuracy
- Title(参考訳): バイナリコードコメントの品質分類の強化: 精度向上のための生成AIの統合
- Authors: Rohith Arumugam S, Angel Deborah S
- Abstract要約: 本報告では、生成コードとコメントペアを統合することにより、バイナリコードコメント品質分類モデルの強化に焦点を当てる。
データセットは、C言語で書かれた9048のコードとコメントで構成され、それぞれが"Useful"または"Not Useful"と注釈付けされている。
この取り組みの結果は、2つの分類モデルで構成されている。1つは元のデータセットを利用しており、もう1つは新しく生成されたコードコメントペアとラベルに拡張データセットを組み込んでいる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report focuses on enhancing a binary code comment quality classification
model by integrating generated code and comment pairs, to improve model
accuracy. The dataset comprises 9048 pairs of code and comments written in the
C programming language, each annotated as "Useful" or "Not Useful."
Additionally, code and comment pairs are generated using a Large Language Model
Architecture, and these generated pairs are labeled to indicate their utility.
The outcome of this effort consists of two classification models: one utilizing
the original dataset and another incorporating the augmented dataset with the
newly generated code comment pairs and labels.
- Abstract(参考訳): 本報告では,生成コードとコメントペアを統合したバイナリコードコメント品質分類モデルを改良し,モデルの精度を向上させることに焦点を当てる。
データセットは、C言語で書かれた9048のコードとコメントで構成され、それぞれが"Useful"または"Not Useful"と注釈付けされている。
さらに、コードとコメントのペアはLarge Language Model Architectureを使って生成され、生成されたペアはそれらのユーティリティを示すようにラベル付けされる。
この取り組みの成果は、2つの分類モデルで構成されている。1つはオリジナルのデータセットを利用し、もう1つは新しく生成されたコードコメントペアとラベルを付加した拡張データセットである。
関連論文リスト
- Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。
コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。
実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文 参考訳(メタデータ) (2024-09-20T14:49:51Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - The Vault: A Comprehensive Multilingual Dataset for Advancing Code
Understanding and Generation [5.2510537676167335]
複数のプログラミング言語における高品質なコードテキストペアのデータセットであるThe Vaultを提示する。
我々の評価では、The Vault上でコード大言語モデルを微調整すると、このようなモデルはCodeSearchNetのような他のデータセットでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-09T09:35:03Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - LAMNER: Code Comment Generation Using Character Language Model and Named
Entity Recognition [0.7894331610810762]
LANguage Model と Named Entity Recognition (LAMNER) を提案する。
LAMNERは、コード構造を効果的に符号化し、コードトークンの構造的特性をキャプチャできるコードコメント生成装置である。
LAMNERや他のベースラインから生成されたコメントを、一般的な4つのメトリクスを持つ人気のあるJavaデータセットで評価する。
論文 参考訳(メタデータ) (2022-04-05T20:53:06Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。