Fugu-MT 論文翻訳(概要): Evaluation of large language models for assessing code maintainability

論文の概要: Evaluation of large language models for assessing code maintainability

arxiv url: http://arxiv.org/abs/2401.12714v1
Date: Tue, 23 Jan 2024 12:29:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 15:42:12.942791
Title: Evaluation of large language models for assessing code maintainability
Title（参考訳）: コード保守性評価のための大規模言語モデルの評価
Authors: Marc Dillmann, Julien Siebert, Adam Trendowicz
Abstract要約: 10種類の異なるモデルによって生成されたコードのクロスエントロピーと品質面の関係について検討する。この結果から,LLMが計算したクロスエントロピーは,クラスレベルでの保守性の予測因子であることがわかった。 LLMの複雑さはクロスエントロピーの範囲に影響を与えるが、これは保守性の側面を予測する上で重要な役割を果たす。
参考スコア（独自算出の注目度）: 4.2909314120969855
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Increased availability of open-source software repositories and recent advances in code analysis using large language models (LLMs) has triggered a wave of new work to automate software engineering tasks that were previously very difficult to automate. In this paper, we investigate a recent line of work that hypothesises that comparing the probability of code generated by LLMs with the probability the current code would have had can indicate potential quality problems. We investigate the association between the cross-entropy of code generated by ten different models (based on GPT2 and Llama2) and the following quality aspects: readability, understandability, complexity, modularisation, and overall maintainability assessed by experts and available in an benchmark dataset. Our results show that, controlling for the number of logical lines of codes (LLOC), cross-entropy computed by LLMs is indeed a predictor of maintainability on a class level (the higher the cross-entropy the lower the maintainability). However, this relation is reversed when one does not control for LLOC (e.g., comparing small classes with longer ones). Furthermore, while the complexity of LLMs affects the range of cross-entropy (smaller models tend to have a wider range of cross-entropy), this plays a significant role in predicting maintainability aspects. Our study limits itself on ten different pretrained models (based on GPT2 and Llama2) and on maintainability aspects collected by Schnappinger et al. When controlling for logical lines of code (LLOC), cross-entropy is a predictor of maintainability. However, while related work has shown the potential usefulness of cross-entropy at the level of tokens or short sequences, at the class level this criterion alone may prove insufficient to predict maintainability and further research is needed to make best use of this information in practice.
Abstract（参考訳）: オープンソースソフトウェアリポジトリの可用性の向上と,大規模言語モデル(LLM)を使用したコード解析の最近の進歩は,これまで自動化が困難だったソフトウェアエンジニアリングタスクを自動化するための,新たな作業の波を引き起こしている。本稿では,LLMが生成するコードの確率と,現在のコードが有する確率を比較することで,潜在的な品質問題を示すことができるという仮説を立てる。我々は,10種類の異なるモデル(GPT2とLlama2)で生成されたコードのクロスエントロピーと,可読性,理解可能性,複雑性,モジュール化,およびベンチマークデータセットで評価された全体的な保守性との関係について検討する。以上の結果から,LLMによって計算されるクロスエントロピーは,論理的符号数(LLOC)の制御において,クラスレベルでの保守性の予測因子であることが示唆された。しかし、LLOCを制御していない場合(例えば、より長いクラスとの比較など)、この関係は逆になる。さらに、LLMの複雑さはクロスエントロピーの範囲(より小さなモデルはより広い範囲のクロスエントロピーを持つ傾向がある)に影響を与えるが、これは保守性の観点からの予測において重要な役割を果たす。本研究は,10種類の事前学習モデル(GPT2とLlama2)と,Schnappingerらによって収集された保守性に限定する。論理的なコード行(LLOC)を制御する場合、クロスエントロピーは保守性の予測である。しかしながら、関連する研究はトークンや短いシーケンスのレベルでのクロスエントロピーの有用性を示しているが、クラスレベルでは、この基準だけでは保守性を予測するには不十分であり、実際にこの情報を最大限に活用するにはさらなる研究が必要である。

関連論文リスト

CORE: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks [12.465309397733249]
大規模言語モデル(LLM)は様々なソフトウェア工学領域で広く採用されている。これらのアプリケーションは、表面レベルのコードパターン以上の理解を必要とします。既存のベンチマークは、コードが正しく修正されるか、生成されたかといったエンドツーエンドの結果を主に評価する。
論文参考訳（メタデータ） (2025-07-03T01:35:58Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [24.090719826360342]
我々は、コード生成シナリオ内でタスク指向の命令に従うために、LLM(Large Language Models)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文参考訳（メタデータ） (2025-02-26T14:19:49Z)
Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-10T15:31:54Z)
Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文参考訳（メタデータ） (2024-09-04T14:26:58Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文参考訳（メタデータ） (2024-07-11T17:59:22Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models [12.656574142412484]
本研究では,教師付き微調整と強化学習の相関関係の解明を試みる。 SFTの一般化には原子関数と合成関数の両方が不可欠である。
論文参考訳（メタデータ） (2024-06-14T03:39:01Z)
Quantifying Contamination in Evaluating Code Generation Capabilities of Language Models [27.24738197172374]
大規模言語モデルは、様々なコード生成ベンチマークで顕著なパフォーマンスを達成した。これらのベンチマークが事前トレーニングや微調整のデータにリークされる可能性があるため、潜在的な汚染に関する懸念が高まっている。我々は、人気のあるコード生成ベンチマークとオープントレーニングコーパスの間にかなりの重複があることを示し、トレーニング中に同様のソリューションが見られたベンチマークのサブセットにおいて、モデルの性能が大幅に向上することを示した。
論文参考訳（メタデータ） (2024-03-06T21:45:35Z)
CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文参考訳（メタデータ） (2024-02-28T10:43:54Z)
AQA-Bench: An Interactive Benchmark for Evaluating LLMs' Sequential Reasoning Ability [25.96556671801114]
本稿では,大規模言語モデル(LLM)の逐次推論能力を評価する新しいベンチマークであるAQA-Benchを紹介する。 AQA-Benchを2進探索,深さ優先探索,幅優先探索という3つのアルゴリズムで構築し,14種類のLLMの逐次推論能力を評価する。
論文参考訳（メタデータ） (2024-02-14T18:59:33Z)
A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。 GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-02T21:48:50Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。