論文の概要: Measuring how changes in code readability attributes affect code quality evaluation by Large Language Models
- arxiv url: http://arxiv.org/abs/2507.05289v2
- Date: Wed, 09 Jul 2025 18:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 12:24:00.071452
- Title: Measuring how changes in code readability attributes affect code quality evaluation by Large Language Models
- Title(参考訳): 大規模言語モデルによるコードの可読性特性の変化がコード品質評価に与える影響の測定
- Authors: Igor Regis da Silva Simoes, Elaine Venson,
- Abstract要約: コード可読性はコード品質の主要な側面の1つであり、識別子名、コメント、コード構造、標準への準拠といった様々な特性に影響を受けています。
本稿では,Large Language Models (LLMs) を用いて,その可読性に関連するコード品質特性を標準化され再現可能で一貫した方法で評価する。
- 参考スコア(独自算出の注目度): 2.3204178451683264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code readability is one of the main aspects of code quality, influenced by various properties like identifier names, comments, code structure, and adherence to standards. However, measuring this attribute poses challenges in both industry and academia. While static analysis tools assess attributes such as code smells and comment percentage, code reviews introduce an element of subjectivity. This paper explores using Large Language Models (LLMs) to evaluate code quality attributes related to its readability in a standardized, reproducible, and consistent manner. We conducted a quasi-experiment study to measure the effects of code changes on Large Language Model (LLM)s interpretation regarding its readability quality attribute. Nine LLMs were tested, undergoing three interventions: removing comments, replacing identifier names with obscure names, and refactoring to remove code smells. Each intervention involved 10 batch analyses per LLM, collecting data on response variability. We compared the results with a known reference model and tool. The results showed that all LLMs were sensitive to the interventions, with agreement with the reference classifier being high for the original and refactored code scenarios. The LLMs demonstrated a strong semantic sensitivity that the reference model did not fully capture. A thematic analysis of the LLMs reasoning confirmed their evaluations directly reflected the nature of each intervention. The models also exhibited response variability, with 9.37% to 14.58% of executions showing a standard deviation greater than zero, indicating response oscillation, though this did not always compromise the statistical significance of the results. LLMs demonstrated potential for evaluating semantic quality aspects, such as coherence between identifier names, comments, and documentation with code purpose.
- Abstract(参考訳): コード可読性はコード品質の主要な側面の1つであり、識別子名、コメント、コード構造、標準への準拠といった様々な特性に影響を受けています。
しかし、この属性を測定することは、業界と学界の両方に課題をもたらす。
静的解析ツールは、コードの臭いやコメントパーセンテージなどの属性を評価する一方で、コードレビューは主観性の要素を導入する。
本稿では,Large Language Models (LLMs) を用いて,その可読性に関連するコード品質特性を標準化され再現可能で一貫した方法で評価する。
我々は,コード変更がLarge Language Model(LLM)の可読性の品質特性に対する解釈に与える影響を評価するための準実験を行った。
9つのLSMがテストされ、コメントの削除、識別子名を不明瞭な名前に置き換え、コードの臭いを取り除くリファクタリングという3つの介入が行われた。
各介入には、LSM当たり10バッチ分析が含まれ、応答の変動に関するデータを収集した。
結果と既知の参照モデルとツールを比較した。
その結果、全てのLLMは介入に敏感であり、参照分類器との一致は、元のコードシナリオとリファクタリングされたコードシナリオに高いことがわかった。
LLMは、参照モデルが完全に捉えられていないような強い意味感受性を示した。
LLMの理論的解析により,それぞれの介入の性質を直接反映した評価が得られた。
モデルはまた応答の変動を示し、9.37%から14.58%は標準偏差が0より大きいことを示し、応答の発振を示すが、これは必ずしも結果の統計的重要性を損なうことはなかった。
LLMは、識別子名、コメント、コード目的のドキュメントの一貫性など、セマンティックな品質面を評価する可能性を実証した。
関連論文リスト
- Human-Like Code Quality Evaluation through LLM-based Recursive Semantic Comprehension [39.277408536940825]
コード品質評価には、特定の問題ステートメントに対する参照コードに基づいて生成されたコード品質を評価することが含まれる。
現在、コード品質の評価には、マッチベースの評価と実行ベースの評価の2つの主要な形態がある。
論文 参考訳(メタデータ) (2024-11-30T01:49:25Z) - Evaluating Source Code Quality with Large Languagem Models: a comparative study [2.3204178451683264]
本稿では,静的解析ツールとしてLarge Language Model (LLM) を用いて得られた結果について述べる。
GPT 3.5 TurboとGPT 4oの2種類のモデルを比較し,合計1,641クラスの分析を行った。
GPT 4o版では、低品質と評価されたコードに高い分類を割り当てることで、以前のモデルとSonarから切り離された結果が示されなかった。
論文 参考訳(メタデータ) (2024-08-07T18:44:46Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.040736633675136]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - CRITIC: Large Language Models Can Self-Correct with Tool-Interactive
Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。
自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文 参考訳(メタデータ) (2023-05-19T15:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。