論文の概要: Predicting the Understandability of Computational Notebooks through Code Metrics Analysis
- arxiv url: http://arxiv.org/abs/2406.10989v1
- Date: Sun, 16 Jun 2024 15:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:42:48.746989
- Title: Predicting the Understandability of Computational Notebooks through Code Metrics Analysis
- Title(参考訳): コードメトリクス解析による計算ノートの理解可能性予測
- Authors: Mojtaba Mostafavi Ghahfarokhi, Alireza Asadi, Arash Asgari, Bardia Mohammadi, Masih Beigi Rizi, Abbas Heydarnoori,
- Abstract要約: 我々は、コード理解性に関連するユーザコメントを識別するために、微調整のDistilBERT変換器を使用している。
UOCU(User Opinion Code Understandability)と呼ばれる基準を確立しました。
私たちは、メトリクスのみに基づいてノートのコード理解可能性を予測するために、機械学習モデルを訓練しました。
- 参考スコア(独自算出の注目度): 0.5277756703318045
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Computational notebooks have become the primary coding environment for data scientists. However, research on their code quality is still emerging, and the code shared is often of poor quality. Given the importance of maintenance and reusability, understanding the metrics that affect notebook code comprehensibility is crucial. Code understandability, a qualitative variable, is closely tied to user opinions. Traditional approaches to measuring it either use limited questionnaires to review a few code pieces or rely on metadata such as likes and votes in software repositories. Our approach enhances the measurement of Jupyter notebook understandability by leveraging user comments related to code understandability. As a case study, we used 542,051 Kaggle Jupyter notebooks from our previous research, named DistilKaggle. We employed a fine-tuned DistilBERT transformer to identify user comments associated with code understandability. We established a criterion called User Opinion Code Understandability (UOCU), which considers the number of relevant comments, upvotes on those comments, total notebook views, and total notebook upvotes. UOCU proved to be more effective than previous methods. Furthermore, we trained machine learning models to predict notebook code understandability based solely on their metrics. We collected 34 metrics for 132,723 final notebooks as features in our dataset, using UOCU as the label. Our predictive model, using the Random Forest classifier, achieved 89% accuracy in predicting the understandability levels of computational notebooks.
- Abstract(参考訳): 計算ノートは、データサイエンティストにとって主要なコーディング環境となっている。
しかし、コード品質の研究はまだ発展途上であり、共有されるコードの品質は低いことが多い。
メンテナンスと再利用性の重要性を考えると、ノートのコード理解に影響を及ぼすメトリクスを理解することが重要です。
コードの理解可能性、質的な変数は、ユーザの意見と密接に結びついています。
従来の方法では、限定的なアンケートを使っていくつかのコード片をレビューするか、ソフトウェアリポジトリのお気に入りや投票といったメタデータに依存している。
提案手法は,コード理解性に関連するユーザコメントを活用することにより,Jupyterノートブックの可読性の測定を強化する。
ケーススタディでは、以前の研究でDistilKaggleという542,051個のKaggle Jupyterノートを使用しました。
我々は、コード理解性に関連するユーザコメントを識別するために、微調整のDistilBERT変換器を使用した。
UOCU(User Opinion Code Understandability)と呼ばれる基準を確立しました。
UOCUは従来の方法よりも効果的であることが判明した。
さらに、私たちは機械学習モデルをトレーニングし、メトリクスのみに基づいてノートのコード理解性を予測しました。
私たちはUOCUをラベルとして、データセットの特徴として132,723の最終的なノートブックの34のメトリクスを収集しました。
我々の予測モデルはランダムフォレスト分類器を用いて,計算ノートの可読度を89%精度で予測した。
関連論文リスト
- Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - Make It Make Sense! Understanding and Facilitating Sensemaking in
Computational Notebooks [10.621214052177125]
Porpoiseは、計算ノート機能とデジタルデザインを統合し、セルをラベル付きセクションにグループ化し、拡張したり、崩壊したり、アノテートしたりできる。
24人のデータサイエンティストによる調査では、Porpoiseはコード理解を強化し、本を読むのと同じような体験をしました。
論文 参考訳(メタデータ) (2023-12-18T18:33:58Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - Investigating the Impact of Vocabulary Difficulty and Code Naturalness
on Program Comprehension [3.35803394416914]
本研究の目的は,言語習得の観点から可読性と可読性を評価することである。
我々は,それらの相関関係を理解するために統計的解析を行い,可読性および可読性予測法の性能向上にコード自然性および語彙難易度を用いることができるか分析する。
論文 参考訳(メタデータ) (2023-08-25T15:15:00Z) - CodeReviewer: Pre-Training for Automating Code Review Activities [36.40557768557425]
本研究は,コードレビューシナリオにおけるタスクの事前学習技術を活用することに焦点を当てる。
私たちは、最も人気のある9つのプログラミング言語で、オープンソースのプロジェクトから、現実世界のコード変更とコードレビューの大規模なデータセットを収集します。
コード差分とレビューをよりよく理解するために、コードレビューセナリオに特化した4つの事前トレーニングタスクを利用する事前トレーニングモデルであるCodeReviewerを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:40:13Z) - StickyLand: Breaking the Linear Presentation of Computational Notebooks [5.1175396458764855]
StickyLandはノートブックの拡張機能で、ユーザは自由にコードをリニアな方法で整理できる。
常に画面に表示される粘着性のあるセルを使えば、ユーザーはノートに素早くアクセスでき、実験結果をすぐに観察でき、インタラクティブなダッシュボードを簡単に構築できる。
論文 参考訳(メタデータ) (2022-02-22T18:25:54Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - MOCHA: A Dataset for Training and Evaluating Generative Reading
Comprehension Metrics [55.85042753772513]
そこで本研究では,生成的読解の指標であるModeling Correctness with Humanをトレーニングし,評価するためのベンチマークを提案する。
S
我々は,MOCHAを用いて,人間の判断スコアを模倣する学習評価尺度LERCを訓練する。
最小のペアで評価すると、LERCは80%の精度でベースラインを14から26の絶対パーセンテージポイントで上回り、改善の余地は大きい。
論文 参考訳(メタデータ) (2020-10-07T20:22:54Z) - Deep Just-In-Time Inconsistency Detection Between Comments and Source
Code [51.00904399653609]
本稿では,コード本体の変更によりコメントが矛盾するかどうかを検出することを目的とする。
私たちは、コメントとコードの変更を関連付けるディープラーニングアプローチを開発しています。
より包括的な自動コメント更新システムを構築するために,コメント更新モデルと組み合わせて提案手法の有用性を示す。
論文 参考訳(メタデータ) (2020-10-04T16:49:28Z) - CodeBLEU: a Method for Automatic Evaluation of Code Synthesis [57.87741831987889]
コード合成の分野では、一般的に使用される評価基準はBLEUまたは完全精度である。
我々はCodeBLEUと呼ばれる新しい自動評価指標を導入する。
n-gramマッチングにおけるBLEUの強度を吸収し、抽象構文木(AST)やデータフローによるコードセマンティクスを通じてコード構文を注入する。
論文 参考訳(メタデータ) (2020-09-22T03:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。