論文の概要: Evaluation of large language models for assessing code maintainability
- arxiv url: http://arxiv.org/abs/2401.12714v1
- Date: Tue, 23 Jan 2024 12:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 15:42:12.942791
- Title: Evaluation of large language models for assessing code maintainability
- Title(参考訳): コード保守性評価のための大規模言語モデルの評価
- Authors: Marc Dillmann, Julien Siebert, Adam Trendowicz
- Abstract要約: 10種類の異なるモデルによって生成されたコードのクロスエントロピーと品質面の関係について検討する。
この結果から,LLMが計算したクロスエントロピーは,クラスレベルでの保守性の予測因子であることがわかった。
LLMの複雑さはクロスエントロピーの範囲に影響を与えるが、これは保守性の側面を予測する上で重要な役割を果たす。
- 参考スコア(独自算出の注目度): 4.2909314120969855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Increased availability of open-source software repositories and recent
advances in code analysis using large language models (LLMs) has triggered a
wave of new work to automate software engineering tasks that were previously
very difficult to automate. In this paper, we investigate a recent line of work
that hypothesises that comparing the probability of code generated by LLMs with
the probability the current code would have had can indicate potential quality
problems. We investigate the association between the cross-entropy of code
generated by ten different models (based on GPT2 and Llama2) and the following
quality aspects: readability, understandability, complexity, modularisation,
and overall maintainability assessed by experts and available in an benchmark
dataset. Our results show that, controlling for the number of logical lines of
codes (LLOC), cross-entropy computed by LLMs is indeed a predictor of
maintainability on a class level (the higher the cross-entropy the lower the
maintainability). However, this relation is reversed when one does not control
for LLOC (e.g., comparing small classes with longer ones). Furthermore, while
the complexity of LLMs affects the range of cross-entropy (smaller models tend
to have a wider range of cross-entropy), this plays a significant role in
predicting maintainability aspects. Our study limits itself on ten different
pretrained models (based on GPT2 and Llama2) and on maintainability aspects
collected by Schnappinger et al. When controlling for logical lines of code
(LLOC), cross-entropy is a predictor of maintainability. However, while related
work has shown the potential usefulness of cross-entropy at the level of tokens
or short sequences, at the class level this criterion alone may prove
insufficient to predict maintainability and further research is needed to make
best use of this information in practice.
- Abstract(参考訳): オープンソースソフトウェアリポジトリの可用性の向上と,大規模言語モデル(LLM)を使用したコード解析の最近の進歩は,これまで自動化が困難だったソフトウェアエンジニアリングタスクを自動化するための,新たな作業の波を引き起こしている。
本稿では,LLMが生成するコードの確率と,現在のコードが有する確率を比較することで,潜在的な品質問題を示すことができるという仮説を立てる。
我々は,10種類の異なるモデル(GPT2とLlama2)で生成されたコードのクロスエントロピーと,可読性,理解可能性,複雑性,モジュール化,およびベンチマークデータセットで評価された全体的な保守性との関係について検討する。
以上の結果から,LLMによって計算されるクロスエントロピーは,論理的符号数(LLOC)の制御において,クラスレベルでの保守性の予測因子であることが示唆された。
しかし、LLOCを制御していない場合(例えば、より長いクラスとの比較など)、この関係は逆になる。
さらに、LLMの複雑さはクロスエントロピーの範囲(より小さなモデルはより広い範囲のクロスエントロピーを持つ傾向がある)に影響を与えるが、これは保守性の観点からの予測において重要な役割を果たす。
本研究は,10種類の事前学習モデル(GPT2とLlama2)と,Schnappingerらによって収集された保守性に限定する。
論理的なコード行(LLOC)を制御する場合、クロスエントロピーは保守性の予測である。
しかしながら、関連する研究はトークンや短いシーケンスのレベルでのクロスエントロピーの有用性を示しているが、クラスレベルでは、この基準だけでは保守性を予測するには不十分であり、実際にこの情報を最大限に活用するにはさらなる研究が必要である。
関連論文リスト
- Quantifying Contamination in Evaluating Code Generation Capabilities of
Language Models [27.24738197172374]
大規模言語モデルは、様々なコード生成ベンチマークで顕著なパフォーマンスを達成した。
これらのベンチマークが事前トレーニングや微調整のデータにリークされる可能性があるため、潜在的な汚染に関する懸念が高まっている。
我々は、人気のあるコード生成ベンチマークとオープントレーニングコーパスの間にかなりの重複があることを示し、トレーニング中に同様のソリューションが見られたベンチマークのサブセットにおいて、モデルの性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-03-06T21:45:35Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - AQA-Bench: An Interactive Benchmark for Evaluating LLMs' Sequential
Reasoning Ability [29.1826948551409]
AQA-Benchは、大規模言語モデルの逐次推論能力を評価するための新しいベンチマークである。
AQA-Benchは,2進探索,深さ優先探索,幅優先探索という3つのアルゴリズムで構築されている。
我々の調査では興味深い発見がいくつか示されている。
論文 参考訳(メタデータ) (2024-02-14T18:59:33Z) - Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - A General Framework for Learning from Weak Supervision [97.4298482689398]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。
また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:48:50Z) - Increasing, not Diminishing: Investigating the Returns of Highly
Maintainable Code [6.031345629422313]
一方,コード品質と欠陥数,実装時間との関係について検討する。
回帰分析から導いた値生成モデルを導入し,ベースラインからの相対的変化を探索する。
そこで我々は, 「壊れた窓」 理論の文脈内での知見を議論し, ファイル中のコードの臭いの発生を慎重に防止するよう, 組織に推奨する。
論文 参考訳(メタデータ) (2024-01-24T12:05:06Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - TACTiS-2: Better, Faster, Simpler Attentional Copulas for Multivariate Time Series [57.4208255711412]
パウラ理論に基づいて,最近導入されたトランスフォーマーに基づく注目パウラ(TACTiS)の簡易な目的を提案する。
結果から,実世界の予測タスクにまたがって,このモデルのトレーニング性能が大幅に向上し,最先端のパフォーマンスが達成できることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T16:45:19Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Overcoming Model Bias for Robust Offline Deep Reinforcement Learning [3.1325640909772403]
MOOSEは、ポリシーをデータのサポート内に保持することで、低モデルバイアスを保証するアルゴリズムである。
我々はMOOSEと産業ベンチマークのBRAC, BEAR, BCQ, および MuJoCo の連続制御タスクを比較した。
論文 参考訳(メタデータ) (2020-08-12T19:08:55Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。