論文の概要: Preprocessing Source Code Comments for Linguistic Models
- arxiv url: http://arxiv.org/abs/2208.11235v1
- Date: Tue, 23 Aug 2022 23:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 13:29:32.885560
- Title: Preprocessing Source Code Comments for Linguistic Models
- Title(参考訳): 言語モデルのためのソースコードコメントの事前処理
- Authors: Sergey Matskevich, Colin Gordon
- Abstract要約: コメントはソースコードの重要な部分であり、ドキュメントの主要なソースです。
本稿では、GitHubの840の最も人気のあるオープンソースプロジェクトとSriLabデータセットの8422のプロジェクトから引き出されたPythonコメントの内容と品質について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comments are an important part of the source code and are a primary source of
documentation. This has driven interest in using large bodies of comments to
train or evaluate tools that consume or produce them -- such as generating
oracles or even code from comments, or automatically generating code summaries.
Most of this work makes strong assumptions about the structure and quality of
comments, such as assuming they consist mostly of proper English sentences.
However, we know little about the actual quality of existing comments for these
use cases. Comments often contain unique structures and elements that are not
seen in other types of text, and filtering or extracting information from them
requires some extra care. This paper explores the contents and quality of
Python comments drawn from 840 most popular open source projects from GitHub
and 8422 projects from SriLab dataset, and the impact of na\"ive vs. in-depth
filtering can have on the use of existing comments for training and evaluation
of systems that generate comments.
- Abstract(参考訳): コメントはソースコードの重要な部分であり、ドキュメントの主要なソースである。
これにより、大量のコメントをトレーニングや、それらを消費または生成するツールの評価に利用することへの関心が高まっている。例えば、コメントからオラクルやコードを生成すること、コード要約を自動的に生成することなどだ。
この作品のほとんどが、コメントの構造と質について強い仮定をしており、それらは主に適切な英語の文からなると仮定している。
しかし、これらのユースケースに対する既存のコメントの実際の品質についてはほとんどわかっていない。
コメントには、他のタイプのテキストには見られないユニークな構造や要素が含まれており、それらから情報をフィルタリングしたり抽出したりするには、余計な注意が必要である。
本稿では、githubの840の人気のあるオープンソースプロジェクトとsrilab datasetの8422のプロジェクトから得られたpythonコメントの内容と品質を調査し、na\"ive vs. in-depth filterが、コメントを生成するシステムのトレーニングと評価に既存のコメントを使用することに与えた影響について説明する。
関連論文リスト
- CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - Dopamin: Transformer-based Comment Classifiers through Domain Post-Training and Multi-level Layer Aggregation [6.3403707560721845]
過剰なコメントは無意味で非生産的です。
本稿では,この問題を解決するためのトランスフォーマーベースのツールであるDopaminを紹介する。
本モデルは,複数の言語にまたがる共通カテゴリの知識共有を行うだけでなく,コメント分類における堅牢な性能を実現する上でも優れている。
論文 参考訳(メタデータ) (2024-08-06T08:08:43Z) - COMCAT: Leveraging Human Judgment to Improve Automatic Documentation and Summarization [4.1491806566512235]
COMCATは、専門知識のあるコンテキストで大規模言語モデルを拡張することで、コメント生成を自動化するアプローチである。
C/C++ファイルにコメントを付けるためのCOMCATパイプラインを開発し、(1)コメントを配置する適切な場所を自動的に識別し、(2)各場所について最も有用なタイプのコメントを予測し、(3)選択した場所とコメントタイプに基づいてコメントを生成する。
被験者の87%に対して,COMCATが生成したコメントは,3つの指示的ソフトウェアエンジニアリングタスクにおける開発者のコード理解を最大12%向上させることを示した。
論文 参考訳(メタデータ) (2024-07-18T16:26:31Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - ViCo: Engaging Video Comment Generation with Human Preference Rewards [68.50351391812723]
ビデオコメント生成の課題に対処するために,3つの新しいデザインのViCoを提案する。
コメントのエンゲージメントを定量化するために、各コメントが受け取る「いいね!
コメントのエンゲージメントを自動的に評価するために、我々は報酬モデルをトレーニングし、その判断を上記のプロキシに合わせる。
論文 参考訳(メタデータ) (2023-08-22T04:01:01Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Deep Just-In-Time Inconsistency Detection Between Comments and Source
Code [51.00904399653609]
本稿では,コード本体の変更によりコメントが矛盾するかどうかを検出することを目的とする。
私たちは、コメントとコードの変更を関連付けるディープラーニングアプローチを開発しています。
より包括的な自動コメント更新システムを構築するために,コメント更新モデルと組み合わせて提案手法の有用性を示す。
論文 参考訳(メタデータ) (2020-10-04T16:49:28Z) - Code to Comment "Translation": Data, Metrics, Baselining & Evaluation [49.35567240750619]
本稿では,この課題に対する最近のコード・コンパートメント・データセットについて分析する。
それらをWMT19と比較する。WMT19は、アート自然言語翻訳者の状態のトレーニングに頻繁に使用される標準データセットである。
ソースコードデータとWMT19自然言語データの間には,いくつかの興味深い違いがある。
論文 参考訳(メタデータ) (2020-10-03T18:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。