Fugu-MT 論文翻訳(概要): Human-Like Code Quality Evaluation through LLM-based Recursive Semantic Comprehension

論文の概要: Human-Like Code Quality Evaluation through LLM-based Recursive Semantic Comprehension

arxiv url: http://arxiv.org/abs/2412.00314v1
Date: Sat, 30 Nov 2024 01:49:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:21.742705
Title: Human-Like Code Quality Evaluation through LLM-based Recursive Semantic Comprehension
Title（参考訳）: LLMに基づく再帰的意味理解による人為的コード品質評価
Authors: Fangzhou Xu, Sai Zhang, Zhenchang Xing, Xiaowang Zhang, Yahong Han, Zhiyong Feng,
Abstract要約: コード品質評価には、特定の問題ステートメントに対する参照コードに基づいて生成されたコード品質を評価することが含まれる。現在、コード品質の評価には、マッチベースの評価と実行ベースの評価の2つの主要な形態がある。
参考スコア（独自算出の注目度）: 39.277408536940825
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code quality evaluation involves scoring generated code quality based on a reference code for a specific problem statement. Currently, there are two main forms of evaluating code quality: match-based evaluation and execution-based evaluation. The former requires the collection of a large number of test cases, making a huge cost. The latter relies on superficial code matching as an evaluation metric, which fails to accurately capture code semantics. Moreover, extensive research has demonstrated that match-based evaluations do not truly reflect code quality. With the development of large language models (LLMs) in recent years, studies have proven the feasibility of using LLMs as evaluators for generative tasks. However, due to issues like hallucinations and uncertainty in LLMs, their correlation with human judgment remains at a lower level, making the direct use of LLMs for code quality evaluation challenging. To address these issues, we propose Human-Like Code Quality Evaluation through LLM-based Recursive Semantic Comprehension (HuCoSC). We employ a recursive approach to enable LLMs to comprehend portions of code semantics independently each time, obtaining the code semantics through multiple interactions with LLMs. We designed a Semantic Dependency Decoupling Storage to make independent analysis feasible, allowing LLMs to achieve more accurate semantics by breaking down complex problems. Finally, the generated code is scored based on a semantic comparison between the reference code and itself. Experimental results indicate that HuCoSC surpasses existing state-of-the-art methods in terms of correlation with human experts and correlation with code execution.
Abstract（参考訳）: コード品質評価には、特定の問題ステートメントに対する参照コードに基づいて生成されたコード品質を評価することが含まれる。現在、コード品質の評価には、マッチベースの評価と実行ベースの評価の2つの主要な形態がある。前者は多数のテストケースの収集を必要とし、非常にコストがかかる。後者は、評価指標としての表面的なコードマッチングに依存しており、コードのセマンティクスを正確にキャプチャすることができない。さらに、マッチングに基づく評価がコード品質を反映していないことも、広範な研究で証明されている。近年の大規模言語モデル (LLMs) の発展により, LLMs を生成タスクの評価器として利用できる可能性が証明されている。しかし, 幻覚やLCMの不確実性などの問題により, 人間の判断との相関は低い水準に留まり, コード品質評価にLSMを直接利用することは困難である。これらの問題に対処するため,LLMに基づくRecursive Semantic Comprehension (HuCoSC) を用いたHuman-like Code Quality Evaluationを提案する。我々は、LLMがコードセマンティクスの一部を毎回独立して理解できるように再帰的なアプローチを採用し、LLMとの複数のインタラクションを通じてコードセマンティクスを得る。我々は、独立解析を実現するためにセマンティック依存分離ストレージを設計し、複雑な問題を分解することでLCMがより正確なセマンティクスを実現できるようにした。最後に、生成されたコードは、参照コードとそれ自身とのセマンティックな比較に基づいてスコアされる。実験結果から,HuCoSCは人間の専門家との相関やコード実行の相関の観点から,既存の最先端手法を超越していることが示唆された。

関連論文リスト

CodeVisionary: An Agent-based Framework for Evaluating Large Language Models in Code Generation [8.795746370609855]
大規模言語モデル(LLM)は、コード生成において強力な能力を示している。既存の評価アプローチは、人間中心、メートル法、LLMベースの3つのカテゴリに分類される。コード生成における LLM 評価のための最初の LLM ベースのエージェントフレームワークである CodeVisionary を提案する。
論文参考訳（メタデータ） (2025-04-18T05:26:32Z)
Can LLMs Replace Human Evaluators? An Empirical Study of LLM-as-a-Judge in Software Engineering [18.766132076075365]
大規模言語モデル(LLM)は、コード生成のような様々なソフトウェアエンジニアリング(SE)タスクに取り組むためにデプロイされている。 Pass@kメトリックは、広範囲なユニットテストと設定された環境を必要とし、LLM生成したテキストの評価には適していない。 BLEUのような従来のメトリクスは、意味的類似性ではなく語彙のみを測定するが、精査されている。
論文参考訳（メタデータ） (2025-02-10T06:49:29Z)
Evaluating and Aligning CodeLLMs on Human Preference [42.26173776584043]
実世界のコーディングタスクの複雑さと多様性をエミュレートするために,厳密な人為的なベンチマークであるCodeArenaを提案する。また,大規模合成命令微調整の有効性を検証するために,多種多様な合成命令コーパスSynCode-Instructを提案する。その結果、実行ベースのベンチマークとCodeArenaのパフォーマンスの違いが判明した。
論文参考訳（メタデータ） (2024-12-06T17:40:38Z)
Can Large Language Models Serve as Evaluators for Code Summarization? [47.21347974031545]
LLM(Large Language Models)は、コード要約手法の効果的な評価手法である。 LLMはエージェントに、コードレビュアー、コード作者、コードエディタ、システムアナリストなどの様々な役割を演じるよう促す。 CoDERPEは、人間の評価と81.59%のスピアマン相関を達成し、既存のBERTScoreの基準を17.27%上回った。
論文参考訳（メタデータ） (2024-12-02T09:56:18Z)
AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文参考訳（メタデータ） (2024-10-04T04:03:24Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Benchmarking the Communication Competence of Code Generation for LLMs and LLM Agent [2.8391355909797644]
大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。 LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。
論文参考訳（メタデータ） (2024-05-31T22:06:18Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。コード推論は、コードLLMの最も重要な能力の1つである。本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文参考訳（メタデータ） (2024-03-25T05:37:16Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
CodeMind: Evaluating Large Language Models for Code Reasoning [6.819757372634151]
大規模言語モデル(LLM)は、プログラミングタスクの自動化に広く使われている。本稿では,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。
論文参考訳（メタデータ） (2024-02-15T02:24:46Z)
Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。 LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。