論文の概要: Code Comment Inconsistency Detection with BERT and Longformer
- arxiv url: http://arxiv.org/abs/2207.14444v1
- Date: Fri, 29 Jul 2022 02:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 12:42:57.888585
- Title: Code Comment Inconsistency Detection with BERT and Longformer
- Title(参考訳): BERTとLongformerによるコードコメントの不整合検出
- Authors: Theo Steiner and Rui Zhang
- Abstract要約: ソースコードの自然言語記述であるコメントは、ソフトウェア開発者の間で標準的なプラクティスである。
コメントに付随する修正を加えずにコードを変更すると、コメントとコードの間に矛盾が生じます。
本研究では,自然言語推論(NLI)の文脈における不整合を検出するための2つのモデルを提案する。
- 参考スコア(独自算出の注目度): 9.378041196272878
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Comments, or natural language descriptions of source code, are standard
practice among software developers. By communicating important aspects of the
code such as functionality and usage, comments help with software project
maintenance. However, when the code is modified without an accompanying
correction to the comment, an inconsistency between the comment and code can
arise, which opens up the possibility for developer confusion and bugs. In this
paper, we propose two models based on BERT (Devlin et al., 2019) and Longformer
(Beltagy et al., 2020) to detect such inconsistencies in a natural language
inference (NLI) context. Through an evaluation on a previously established
corpus of comment-method pairs both during and after code changes, we
demonstrate that our models outperform multiple baselines and yield comparable
results to the state-of-the-art models that exclude linguistic and lexical
features. We further discuss ideas for future research in using pretrained
language models for both inconsistency detection and automatic comment
updating.
- Abstract(参考訳): ソースコードの自然言語記述であるコメントは、ソフトウェア開発者の間で標準的なプラクティスである。
機能や使用法といったコードの重要な側面を伝えることで、コメントはソフトウェアプロジェクトのメンテナンスに役立つ。
しかし、コメントの修正を伴うことなくコードが修正されると、コメントとコードの間に矛盾が生じ、開発者の混乱とバグが生じる可能性がある。
本稿では,BERT(Devlin et al., 2019)とLongformer(Beltagy et al., 2020)に基づく2つのモデルを提案する。
コード変更の前後に確立されたコメントメソッドペアのコーパスの評価を通じて,本モデルが複数のベースラインを上回って,言語的・語彙的特徴を除外した最先端モデルと同等の結果が得られることを示す。
さらに、不整合検出と自動コメント更新の両方に事前訓練された言語モデルを用いた将来の研究のアイデアについて議論する。
関連論文リスト
- Code Documentation and Analysis to Secure Software Development [0.0]
CoDATは、さまざまなレベルのコードドキュメント間の一貫性を維持するように設計されたツールである。
Intellij IDEAで実装されている。
私たちは、コードの断片とそれを記述するコメントの間のセマンティックな一貫性をチェックするために、大きな言語モデルを使用します。
論文 参考訳(メタデータ) (2024-07-16T17:25:44Z) - Beyond Functional Correctness: Investigating Coding Style Inconsistencies in Large Language Models [28.295926947968574]
大規模言語モデル(LLM)は、コード生成の分野にパラダイムシフトをもたらした。
我々は、コードLLMによって生成されたコードと、人間の開発者が書いたコードとのコーディングスタイルの違いを経験的に分析する。
論文 参考訳(メタデータ) (2024-06-29T14:56:11Z) - When simplicity meets effectiveness: Detecting code comments coherence with word embeddings and LSTM [6.417777780911223]
コードコメントは、プログラマに実用的な情報を提供するため、ソフトウェア開発において重要な役割を果たす。
開発者はコードを更新した後、コメントをそのまま残す傾向があり、2つのアーティファクトの間に相違が生じます。
コードスニペットが与えられたら、そのコメントが一貫性があり、コードの背後にある意図をよく反映しているかどうかを特定することが重要です。
論文 参考訳(メタデータ) (2024-05-25T15:21:27Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Deep Just-In-Time Inconsistency Detection Between Comments and Source
Code [51.00904399653609]
本稿では,コード本体の変更によりコメントが矛盾するかどうかを検出することを目的とする。
私たちは、コメントとコードの変更を関連付けるディープラーニングアプローチを開発しています。
より包括的な自動コメント更新システムを構築するために,コメント更新モデルと組み合わせて提案手法の有用性を示す。
論文 参考訳(メタデータ) (2020-10-04T16:49:28Z) - Code to Comment "Translation": Data, Metrics, Baselining & Evaluation [49.35567240750619]
本稿では,この課題に対する最近のコード・コンパートメント・データセットについて分析する。
それらをWMT19と比較する。WMT19は、アート自然言語翻訳者の状態のトレーニングに頻繁に使用される標準データセットである。
ソースコードデータとWMT19自然言語データの間には,いくつかの興味深い違いがある。
論文 参考訳(メタデータ) (2020-10-03T18:57:26Z) - Learning to Update Natural Language Comments Based on Code Changes [48.829941738578086]
我々は、対応するコード本体の変更に基づいて、既存の自然言語コメントを自動的に更新する新しいタスクを定式化する。
本稿では,2つの異なる言語表現にまたがる変化の相関関係を学習し,ソースコード修正を反映した既存のコメントに適用される一連の編集を生成する手法を提案する。
論文 参考訳(メタデータ) (2020-04-25T15:37:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。