論文の概要: Human-Aligned Code Readability Assessment with Large Language Models
- arxiv url: http://arxiv.org/abs/2510.16579v1
- Date: Sat, 18 Oct 2025 17:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.047424
- Title: Human-Aligned Code Readability Assessment with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたコード可読性評価
- Authors: Wendkûuni C. Ouédraogo, Yinghua Li, Xueqi Dang, Pawel Borsukiewicz, Xin Zhou, Anil Koyuncu, Jacques Klein, David Lo, Tegawendé F. Bissyandé,
- Abstract要約: 本稿では,大規模言語モデル(LLM)に基づくコード可読性評価のための,最初の大規模ベンチマークであるCoReEvalを紹介する。
LLMはスケーラブルな代替手段を提供するが、可読性評価器としてのそれらの振る舞いは未検討のままである。
以上の結果から,人間定義の可読性次元に基礎を置く開発者誘導型プロンプトは,構造化コンテキストにおけるアライメントを改善することが示唆された。
- 参考スコア(独自算出の注目度): 15.17270025276759
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Code readability is crucial for software comprehension and maintenance, yet difficult to assess at scale. Traditional static metrics often fail to capture the subjective, context-sensitive nature of human judgments. Large Language Models (LLMs) offer a scalable alternative, but their behavior as readability evaluators remains underexplored. We introduce CoReEval, the first large-scale benchmark for evaluating LLM-based code readability assessment, comprising over 1.4 million model-snippet-prompt evaluations across 10 state of the art LLMs. The benchmark spans 3 programming languages (Java, Python, CUDA), 2 code types (functional code and unit tests), 4 prompting strategies (ZSL, FSL, CoT, ToT), 9 decoding settings, and developer-guided prompts tailored to junior and senior personas. We compare LLM outputs against human annotations and a validated static model, analyzing numerical alignment (MAE, Pearson's, Spearman's) and justification quality (sentiment, aspect coverage, semantic clustering). Our findings show that developer-guided prompting grounded in human-defined readability dimensions improves alignment in structured contexts, enhances explanation quality, and enables lightweight personalization through persona framing. However, increased score variability highlights trade-offs between alignment, stability, and interpretability. CoReEval provides a robust foundation for prompt engineering, model alignment studies, and human in the loop evaluation, with applications in education, onboarding, and CI/CD pipelines where LLMs can serve as explainable, adaptable reviewers.
- Abstract(参考訳): コードの可読性はソフトウェアの理解とメンテナンスに不可欠だが、大規模に評価することは難しい。
従来の静的メトリクスは、人間の判断の主観的で文脈に敏感な性質を捉えるのに失敗することが多い。
大規模言語モデル(LLM)はスケーラブルな代替手段を提供するが、可読性評価器としてのそれらの振る舞いはいまだ検討されていない。
我々は,10のLLMを対象とした14万以上のモデル・スニペット・プロンプト評価を含む,LCMに基づくコード可読性評価のための最初の大規模ベンチマークであるCoReEvalを紹介した。
ベンチマークは、3つのプログラミング言語(Java、Python、CUDA)、2つのコード型(機能コードと単体テスト)、4つのプロンプト戦略(ZSL、FSL、CoT、ToT)、9つのデコード設定、開発者ガイドによるプロンプトを中年と上級のペルソナに合わせる。
人間のアノテーションと静的モデルとのLCM出力を比較し,数値アライメント(MAE,Pearson,Spearman)と正当化品質(感性,アスペクトカバレッジ,セマンティッククラスタリング)を分析した。
本研究は,人間定義の可読性次元に根ざした開発者誘導プロンプトが,構造化コンテキストのアライメントを改善し,説明品質を高め,ペルソナフレーミングによる軽量なパーソナライズを可能にすることを示す。
しかし、スコアの多様性の増大は、アライメント、安定性、解釈可能性の間のトレードオフを浮き彫りにする。
CoReEvalは、迅速なエンジニアリング、モデルアライメント研究、ループ評価のための堅牢な基盤を提供する。教育、オンボーディング、CI/CDパイプラインにおいて、LCMは説明可能な適応可能なレビュアーとして機能する。
関連論文リスト
- evalSmarT: An LLM-Based Framework for Evaluating Smart Contract Generated Comments [0.0]
大規模な言語モデル(LLM)を評価対象として利用するモジュール型フレームワークである texttevalSmarT を提案する。
コメント生成ツールのベンチマークや,最も情報に富んだアウトプットの選択において,その応用を実証する。
論文 参考訳(メタデータ) (2025-07-28T12:37:43Z) - Can Large Language Models Serve as Evaluators for Code Summarization? [47.21347974031545]
LLM(Large Language Models)は、コード要約手法の効果的な評価手法である。
LLMはエージェントに、コードレビュアー、コード作者、コードエディタ、システムアナリストなどの様々な役割を演じるよう促す。
CoDERPEは、人間の評価と81.59%のスピアマン相関を達成し、既存のBERTScoreの基準を17.27%上回った。
論文 参考訳(メタデータ) (2024-12-02T09:56:18Z) - Human-Like Code Quality Evaluation through LLM-based Recursive Semantic Comprehension [39.277408536940825]
コード品質評価には、特定の問題ステートメントに対する参照コードに基づいて生成されたコード品質を評価することが含まれる。
現在、コード品質の評価には、マッチベースの評価と実行ベースの評価の2つの主要な形態がある。
論文 参考訳(メタデータ) (2024-11-30T01:49:25Z) - FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。
また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文 参考訳(メタデータ) (2024-07-01T02:20:28Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。