論文の概要: Optimizing Datasets for Code Summarization: Is Code-Comment Coherence Enough?
- arxiv url: http://arxiv.org/abs/2502.07611v1
- Date: Tue, 11 Feb 2025 15:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:09:03.467108
- Title: Optimizing Datasets for Code Summarization: Is Code-Comment Coherence Enough?
- Title(参考訳): コードの要約のためにデータセットを最適化する: コード-Comment Coherenceは十分か?
- Authors: Antonio Vitale, Antonio Mastropaolo, Rocco Oliveto, Massimiliano Di Penta, Simone Scalabrino,
- Abstract要約: コード要約の特定の品質属性であるコード圧縮コヒーレンスが、コードの要約データセットの最適化にどの程度利用できるかを検討する。
2つの最先端データセット(TL-CodeSumとFuncom)から複数のレベルのトレーニングインスタンスを調べ、3つの手作業によるテストセット上で結果モデルを評価する。
- 参考スコア(独自算出の注目度): 11.865113785648932
- License:
- Abstract: Automated code summarization is a long-standing goal for code comprehension. This task automatically generates documentation using a given method. Deep Learning (DL)-based approaches have been proven beneficial for various software engineering (SE) tasks, including this one. Most state-of-the-art datasets for code summarization are automatically mined from GitHub and, thus, might contain erroneous or sub-optimal examples. Previous work showed that using a simple rule-based approach for removing noisy instances allows for a tangible reduction of the training set size while not reducing the effectiveness of the trained models. Motivated by this finding, we conjecture that it is possible to further reduce the dataset size by removing instances that contain different issues. In this paper, we explore the extent to which code-comment coherence, a specific quality attribute of code summaries, can be used to optimize code summarization datasets. Specifically, we hypothesize that removing incoherent code-comment pairs might positively impact the effectiveness of the models. To do this, we rely on SIDE, a recently introduced metric for code-summary coherence. We examine multiple selectivity levels of training instances from two state-of-the-art datasets (TL-CodeSum and Funcom) and evaluate the resulting models on three manually curated test sets. The results show that even halving the training set sizes does not significantly affect the model's ability to generate summaries. However, when comparing the most restrictive selection strategy with a simpler one that randomly selects the training instances, we observe that the resulting accuracy of the model also does not change. This result suggests that (i) current datasets contain many irrelevant examples, and (ii) different quality attributes should be explored for optimizing code summarization datasets.
- Abstract(参考訳): 自動コード要約は、コード理解の長年の目標である。
このタスクは、与えられたメソッドを使用してドキュメントを自動的に生成する。
ディープラーニング(DL)ベースのアプローチは、さまざまなソフトウェアエンジニアリング(SE)タスクに有用であることが証明されている。
コード要約のための最先端データセットの多くは、GitHubから自動的にマイニングされるため、誤った例や準最適例が含まれている可能性がある。
これまでの研究では、単純なルールベースのアプローチでノイズの多いインスタンスを除去することで、トレーニングモデルの有効性を損なうことなく、トレーニングセットサイズの明確な削減が可能になることが示されていた。
この発見により、異なる問題を含むインスタンスを削除することにより、データセットのサイズをさらに小さくすることができると推測する。
本稿では,コード要約データセットの最適化に,コード要約の品質属性であるコード圧縮コヒーレンスをどの程度利用できるかを検討する。
具体的には,非コヒーレントなコード圧縮ペアの除去がモデルの有効性に肯定的な影響を及ぼす可能性があると仮定する。
これを実現するために、コード・サマー・コヒーレンス(code-summary coherence)のメトリクスであるSIDEを頼りにしています。
2つの最先端データセット(TL-CodeSumとFuncom)からトレーニングインスタンスの複数の選択性レベルを調べ、3つの手作業によるテストセット上で結果モデルを評価する。
その結果、トレーニングセットのサイズを半減しても、モデルが要約を生成する能力にはあまり影響しないことがわかった。
しかし、最も制限的な選択戦略と、ランダムにトレーニングインスタンスを選択する単純な戦略を比較すると、結果の精度も変わらないことが分かる。
この結果は
(i)現在のデータセットには、多くの無関係な例が含まれており、
(ii)コード要約データセットを最適化するためには,異なる品質特性を検討する必要がある。
関連論文リスト
- Advanced Detection of Source Code Clones via an Ensemble of Unsupervised Similarity Measures [0.0]
本研究では,コード類似度評価のための新しいアンサンブル学習手法を提案する。
鍵となる考え方は、様々な類似度尺度の強みが互いに補完し、個々の弱点を軽減することである。
論文 参考訳(メタデータ) (2024-05-03T13:42:49Z) - GistScore: Learning Better Representations for In-Context Example
Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。
本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。
我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文 参考訳(メタデータ) (2023-11-16T06:28:05Z) - Rethinking Negative Pairs in Code Search [56.23857828689406]
我々は、重み項をInfoNCEに挿入する簡易で効果的なSoft-InfoNCE損失を提案する。
我々は,Soft-InfoNCEが学習したコード表現の分布を制御することと,より正確な相互情報推定の導出に与える影響を分析する。
論文 参考訳(メタデータ) (2023-10-12T06:32:42Z) - BaSAL: Size-Balanced Warm Start Active Learning for LiDAR Semantic
Segmentation [2.9290232815049926]
既存のアクティブな学習方法は、LiDARセマンティックセグメンテーションデータセットに固有の深刻なクラス不均衡を見落としている。
本研究では,各オブジェクトクラスが特徴的サイズであることを示す観測結果に基づいて,サイズバランスの取れたウォームスタートアクティブラーニングモデルBaSALを提案する。
その結果,初期モデルの性能を大きなマージンで改善できることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T05:03:19Z) - Boosting Commit Classification with Contrastive Learning [0.8655526882770742]
コミット分類(CC)は、ソフトウェアのメンテナンスにおいて重要なタスクである。
対照的な学習に基づくコミット分類フレームワークを提案する。
われわれのフレームワークはCCの問題をシンプルに解決できるが、スプリットショットのシナリオでは効果的に解決できる。
論文 参考訳(メタデータ) (2023-08-16T10:02:36Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Neural Code Summarization: How Far Are We? [30.324396716447602]
ディープラーニング技術を利用して、与えられたコードスニペットの要約を自動的に生成する。
本稿では,5つの最先端のニューラルネットワークの要約モデルについて,系統的かつ詳細な解析を行う。
論文 参考訳(メタデータ) (2021-07-15T04:33:59Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。