論文の概要: High-quality data augmentation for code comment classification
- arxiv url: http://arxiv.org/abs/2601.19383v1
- Date: Tue, 27 Jan 2026 09:14:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.263924
- Title: High-quality data augmentation for code comment classification
- Title(参考訳): コードコメント分類のための高品質データ拡張
- Authors: Thomas Borsani, Andrea Rosani, Giuseppe Di Fatta,
- Abstract要約: コメントは自然言語であるため、マシンベースのコード理解の課題を提示している。
このタスクの既存のデータセットはサイズ制限とクラス不均衡に悩まされている。
我々は、NLBSE'26チャレンジデータセットを強化するために、高品質なデータ生成に基づく新しい合成オーバーサンプリングと拡張技術を導入する。
- 参考スコア(独自算出の注目度): 0.48429188360918735
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Code comments serve a crucial role in software development for documenting functionality, clarifying design choices, and assisting with issue tracking. They capture developers' insights about the surrounding source code, serving as an essential resource for both human comprehension and automated analysis. Nevertheless, since comments are in natural language, they present challenges for machine-based code understanding. To address this, recent studies have applied natural language processing (NLP) and deep learning techniques to classify comments according to developers' intentions. However, existing datasets for this task suffer from size limitations and class imbalance, as they rely on manual annotations and may not accurately represent the distribution of comments in real-world codebases. To overcome this issue, we introduce new synthetic oversampling and augmentation techniques based on high-quality data generation to enhance the NLBSE'26 challenge datasets. Our Synthetic Quality Oversampling Technique and Augmentation Technique (Q-SYNTH) yield promising results, improving the base classifier by $2.56\%$.
- Abstract(参考訳): コードコメントは、機能の文書化、設計選択の明確化、問題追跡の支援において、ソフトウェア開発において重要な役割を担います。
ソースコードに関する開発者の洞察を捉え、人間の理解と自動分析の両方に不可欠なリソースとして機能する。
それでも、コメントは自然言語であるため、マシンベースのコード理解の課題を提示している。
これを解決するために、最近の研究では、開発者の意図に応じてコメントを分類するために自然言語処理(NLP)とディープラーニング技術を適用している。
しかし、このタスクの既存のデータセットは、手動のアノテーションに依存し、現実世界のコードベースにおけるコメントの分布を正確に表現しないため、サイズ制限とクラス不均衡に悩まされている。
この問題を解決するために,NLBSE'26チャレンジデータセットを強化するために,高品質なデータ生成に基づく新しい合成オーバーサンプリングと拡張技術を導入する。
Q-SYNTH (Synthetic Quality Oversampling Technique and Augmentation Technique) は有望な結果をもたらし, 基本分類器を2.56 %$で改善した。
関連論文リスト
- Readability-Robust Code Summarization via Meta Curriculum Learning [53.44612630063336]
現実の世界では、コードが貧弱な構造や難読化され、モデルのパフォーマンスが著しく低下することが多い。
本稿では,可読性の低いコードに対するコード要約の堅牢性を向上する,新しい微調整手法であるRoFTCodeSumを提案する。
論文 参考訳(メタデータ) (2026-01-09T02:38:24Z) - Code Review Without Borders: Evaluating Synthetic vs. Real Data for Review Recommendation [37.86790434630698]
LLM(Large Language Models)は、十分なリソースを持つ言語からのコード変更を、未表現言語や新興言語の等価な変更に変換するために用いられる。
実ラベル付きデータで訓練されたモデルと比較した。
このアプローチは、自動コードレビュー機能を急速に進化するテクノロジスタックに拡張するためのスケーラブルなパスを提供する。
論文 参考訳(メタデータ) (2025-09-05T05:17:14Z) - Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードドメインの両方で合成トレーニングデータ生成を変換している。
我々は、プロンプトベースの生成、検索拡張パイプライン、反復的な自己精製といった重要なテクニックを強調した。
本稿では,生成テキストにおける事実的不正確性,文体的あるいは分布的リアリズムの不足,バイアス増幅のリスクなど,関連する課題について論じる。
論文 参考訳(メタデータ) (2025-03-18T08:34:03Z) - Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。
これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。
直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文 参考訳(メタデータ) (2025-02-11T01:12:11Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。
文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。