論文の概要: Personalized Code Readability Assessment: Are We There Yet?
- arxiv url: http://arxiv.org/abs/2503.07870v1
- Date: Mon, 10 Mar 2025 21:37:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:17.472362
- Title: Personalized Code Readability Assessment: Are We There Yet?
- Title(参考訳): パーソナライズされたコードの可読性の評価: まだ存在するか?
- Authors: Antonio Vitale, Emanuela Guglielmi, Rocco Oliveto, Simone Scalabrino,
- Abstract要約: 以前の作業では、コードの可読性を自動的に評価するアプローチを定義していた。
本稿では,コードの可読性について,開発者の認識する主観的な評価がどの程度可能かを理解することを目的とする。
しかし,提案手法は,スニペットレベルでの動作を訓練した,最先端の機能ベースモデルよりも悪い結果が得られることを示す。
- 参考スコア(独自算出の注目度): 6.401191523681341
- License:
- Abstract: Unreadable code could be a breeding ground for errors. Thus, previous work defined approaches based on machine learning to automatically assess code readability that can warn developers when some code artifacts (e.g., classes) become unreadable. Given datasets of code snippets manually evaluated by several developers in terms of their perceived readability, such approaches (i) establish a snippet-level ground truth, and (ii) train a binary (readable/unreadable) or a ternary (readable/neutral/unreadable) code readability classifier. Given this procedure, all existing approaches neglect the subjectiveness of code readability, i.e., the possible different developer-specific nuances in the code readability perception. In this paper, we aim to understand to what extent it is possible to assess code readability as subjectively perceived by developers through a personalized code readability assessment approach. This problem is significantly more challenging than the snippet-level classification problem: We assume that, in a realistic scenario, a given developer is keen to provide only a few code readability evaluations, thus less data is available. For this reason, we adopt an LLM with few-shot learning to achieve our goal. Our results, however, show that such an approach achieves worse results than a state-of-the-art feature-based model that is trained to work at the snippet-level. We tried to understand why this happens by looking more closely at the quality of the available code readability datasets and assessed the consistency of the inter-developer evaluations. We observed that up to a third of the evaluations are self-contradictory. Our negative results call for new and more reliable code readability datasets.
- Abstract(参考訳): 読めないコードはエラーの発端になり得る。
このように、以前の作業では、機械学習に基づいたアプローチを定義して、コードアーティファクト(例えばクラス)が読めなくなると、開発者に警告できるコードの可読性を自動的に評価した。
複数の開発者が手動で評価するコードスニペットのデータセットが与えられた場合、そのようなアプローチは可読性を認識している。
(i)スニペットレベルの根拠真理を確立し、
(ii)バイナリ(可読性/非可読性)または三進的(可読性/中立性/非可読性)コード可読性分類器をトレーニングする。
この手順により、既存のすべてのアプローチは、コード可読性の主観性を無視する。
本稿では,パーソナライズされたコード可読性評価手法を用いて,コード可読性の評価を,開発者が主観的に認識できる範囲について理解することを目的とする。
この問題はスニペットレベルの分類問題よりもはるかに難しい。 現実的なシナリオでは、与えられた開発者は、わずかなコード可読性の評価しか提供せず、データが少ないと仮定します。
そのため、目標を達成するために、数ショットの学習が可能なLLMを採用しています。
しかし,提案手法は,スニペットレベルでの動作を訓練した,最先端の機能ベースモデルよりも悪い結果が得られることを示す。
利用可能なコード可読性データセットの品質をより詳しく調べて、開発者間の評価の一貫性を評価することで、なぜこのようなことが起こるのかを理解しようとしました。
評価の3分の1は自己矛盾であることがわかった。
私たちのネガティブな結果には、新しくて信頼性の高いコード可読性データセットが求められています。
関連論文リスト
- Unseen Horizons: Unveiling the Real Capability of LLM Code Generation Beyond the Familiar [15.421030528350212]
我々は,大規模な言語モデルを評価するために,コード難読化ベースのベンチマークOBFUSEVALを構築した。
私たちは3段階の戦略を使って、記述やコード、コンテキストの依存関係を曖昧にしています。
その結果, 難燃後, 試験合格率の平均低下率は62.5%に達することがわかった。
論文 参考訳(メタデータ) (2024-12-11T05:31:39Z) - Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - Sifting through the Chaff: On Utilizing Execution Feedback for Ranking the Generated Code Candidates [46.74037090843497]
大規模言語モデル(LLM)は、自然言語記述に基づいたコードの自動生成によって、開発者がプログラミングにアプローチする方法を変えつつある。
本稿では,実行フィードバックを活用するコードランキングの革新的なアプローチである RankEF について述べる。
3つのコード生成ベンチマークの実験では、RanEFが最先端のCodeRankerよりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-26T01:48:57Z) - Improving Automated Code Reviews: Learning from Experience [12.573740138977065]
本研究では,自動コードレビューモデルから高品質なレビューを生成できるかどうかを検討する。
経験を意識したオーバーサンプリングは、レビューの正確性、情報レベル、有意義性を高めることができる。
論文 参考訳(メタデータ) (2024-02-06T07:48:22Z) - Investigating the Impact of Vocabulary Difficulty and Code Naturalness
on Program Comprehension [3.35803394416914]
本研究の目的は,言語習得の観点から可読性と可読性を評価することである。
我々は,それらの相関関係を理解するために統計的解析を行い,可読性および可読性予測法の性能向上にコード自然性および語彙難易度を用いることができるか分析する。
論文 参考訳(メタデータ) (2023-08-25T15:15:00Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - Deep Just-In-Time Inconsistency Detection Between Comments and Source
Code [51.00904399653609]
本稿では,コード本体の変更によりコメントが矛盾するかどうかを検出することを目的とする。
私たちは、コメントとコードの変更を関連付けるディープラーニングアプローチを開発しています。
より包括的な自動コメント更新システムを構築するために,コメント更新モデルと組み合わせて提案手法の有用性を示す。
論文 参考訳(メタデータ) (2020-10-04T16:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。