論文の概要: Preprocessing Source Code Comments for Linguistic Models
- arxiv url: http://arxiv.org/abs/2208.11235v1
- Date: Tue, 23 Aug 2022 23:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 13:29:32.885560
- Title: Preprocessing Source Code Comments for Linguistic Models
- Title(参考訳): 言語モデルのためのソースコードコメントの事前処理
- Authors: Sergey Matskevich, Colin Gordon
- Abstract要約: コメントはソースコードの重要な部分であり、ドキュメントの主要なソースです。
本稿では、GitHubの840の最も人気のあるオープンソースプロジェクトとSriLabデータセットの8422のプロジェクトから引き出されたPythonコメントの内容と品質について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comments are an important part of the source code and are a primary source of
documentation. This has driven interest in using large bodies of comments to
train or evaluate tools that consume or produce them -- such as generating
oracles or even code from comments, or automatically generating code summaries.
Most of this work makes strong assumptions about the structure and quality of
comments, such as assuming they consist mostly of proper English sentences.
However, we know little about the actual quality of existing comments for these
use cases. Comments often contain unique structures and elements that are not
seen in other types of text, and filtering or extracting information from them
requires some extra care. This paper explores the contents and quality of
Python comments drawn from 840 most popular open source projects from GitHub
and 8422 projects from SriLab dataset, and the impact of na\"ive vs. in-depth
filtering can have on the use of existing comments for training and evaluation
of systems that generate comments.
- Abstract(参考訳): コメントはソースコードの重要な部分であり、ドキュメントの主要なソースである。
これにより、大量のコメントをトレーニングや、それらを消費または生成するツールの評価に利用することへの関心が高まっている。例えば、コメントからオラクルやコードを生成すること、コード要約を自動的に生成することなどだ。
この作品のほとんどが、コメントの構造と質について強い仮定をしており、それらは主に適切な英語の文からなると仮定している。
しかし、これらのユースケースに対する既存のコメントの実際の品質についてはほとんどわかっていない。
コメントには、他のタイプのテキストには見られないユニークな構造や要素が含まれており、それらから情報をフィルタリングしたり抽出したりするには、余計な注意が必要である。
本稿では、githubの840の人気のあるオープンソースプロジェクトとsrilab datasetの8422のプロジェクトから得られたpythonコメントの内容と品質を調査し、na\"ive vs. in-depth filterが、コメントを生成するシステムのトレーニングと評価に既存のコメントを使用することに与えた影響について説明する。
関連論文リスト
- PROXYQA: An Alternative Framework for Evaluating Long-Form Text
Generation with Large Language Models [74.73330587411532]
大規模言語モデル(LLM)は、長期的文脈理解タスクにおいて顕著な成功を収めた。
現在のベンチマークでは、情報的かつ包括的なコンテンツを生成するLLMの能力は十分に評価されていない。
長文テキスト生成を評価するフレームワークであるtextsc ProxyQA を紹介する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Generative AI for Software Metadata: Overview of the Information
Retrieval in Software Engineering Track at FIRE 2023 [18.616716369775883]
Information Retrieval in Software Engineering (IRSE)トラックは、コードコメントの自動評価ソリューションの開発を目的としている。
データセットは9048のコードコメントと、オープンソースCベースのプロジェクトから抽出されたコードスニペットペアで構成されている。
大きな言語モデルから生成されたラベルは、予測モデルのバイアスを増加させるが、過度に適合しない結果をもたらす。
論文 参考訳(メタデータ) (2023-10-27T14:13:23Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - ViCo: Engaging Video Comment Generation with Human Preference Rewards [68.50351391812723]
ビデオコメント生成の課題に対処するために,3つの新しいデザインのViCoを提案する。
コメントのエンゲージメントを定量化するために、各コメントが受け取る「いいね!
コメントのエンゲージメントを自動的に評価するために、我々は報酬モデルをトレーニングし、その判断を上記のプロキシに合わせる。
論文 参考訳(メタデータ) (2023-08-22T04:01:01Z) - Exploring the Advances in Identifying Useful Code Review Comments [0.0]
本稿では,コードレビューコメントの有用性に関する研究の進化を反映する。
コードレビューコメントの有用性を定義し、データセットのマイニングとアノテーションを定義し、開発者の認識を調査し、異なる側面から要因を分析し、機械学習分類器を使用してコードレビューコメントの有用性を自動的に予測する。
論文 参考訳(メタデータ) (2023-07-03T00:41:20Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Deep Just-In-Time Inconsistency Detection Between Comments and Source
Code [51.00904399653609]
本稿では,コード本体の変更によりコメントが矛盾するかどうかを検出することを目的とする。
私たちは、コメントとコードの変更を関連付けるディープラーニングアプローチを開発しています。
より包括的な自動コメント更新システムを構築するために,コメント更新モデルと組み合わせて提案手法の有用性を示す。
論文 参考訳(メタデータ) (2020-10-04T16:49:28Z) - Code to Comment "Translation": Data, Metrics, Baselining & Evaluation [49.35567240750619]
本稿では,この課題に対する最近のコード・コンパートメント・データセットについて分析する。
それらをWMT19と比較する。WMT19は、アート自然言語翻訳者の状態のトレーニングに頻繁に使用される標準データセットである。
ソースコードデータとWMT19自然言語データの間には,いくつかの興味深い違いがある。
論文 参考訳(メタデータ) (2020-10-03T18:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。