Fugu-MT 論文翻訳(概要): PELLI: Framework to effectively integrate LLMs for quality software generation

論文の概要: PELLI: Framework to effectively integrate LLMs for quality software generation

arxiv url: http://arxiv.org/abs/2602.10808v1
Date: Wed, 11 Feb 2026 12:51:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-12 21:44:01.896192
Title: PELLI: Framework to effectively integrate LLMs for quality software generation
Title（参考訳）: PELLI:高品質なソフトウェア生成のためのLLMを効果的に統合するフレームワーク
Authors: Rasmus Krebs, Somnath Mazumdar,
Abstract要約: 本稿では LLM Iteration (PELLI) によるプログラム的卓越性(Programmatic Excellence) と呼ばれる包括的コード品質評価フレームワークを提案する。 PELLIは、高品質なコード変更を維持できる反復分析ベースのプロセスである。全体として,GPT-4TとGeminiは,3つの非機能要件に基づいて若干改善した。
参考スコア（独自算出の注目度）: 0.3867363075280543
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent studies have revealed that when LLMs are appropriately prompted and configured, they demonstrate mixed results. Such results often meet or exceed the baseline performance. However, these comparisons have two primary issues. First, they mostly considered only reliability as a comparison metric and selected a few LLMs (such as Codex and ChatGPT) for comparision. This paper proposes a comprehensive code quality assessment framework called Programmatic Excellence via LLM Iteration (PELLI). PELLI is an iterative analysis-based process that upholds high-quality code changes. We extended the state-of-the-art by performing a comprehensive evaluation that generates quantitative metrics for analyzing three primary nonfunctional requirements (such as maintainability, performance, and reliability) while selecting five popular LLMs. For PELLI's applicability, we selected three application domains while following Python coding standards. Following this framework, practitioners can ensure harmonious integration between LLMs and human developers, ensuring that their potential is fully realized. PELLI can serve as a practical guide for developers aiming to leverage LLMs while adhering to recognized quality standards. This study's outcomes are crucial for advancing LLM technologies in real-world applications, providing stakeholders with a clear understanding of where these LLMs excel and where they require further refinement. Overall, based on three nonfunctional requirements, we have found that GPT-4T and Gemini performed slightly better. We also found that prompt design can influence the overall code quality. In addition, each application domain demonstrated high and low scores across various metrics, and even within the same metrics across different prompts.
Abstract（参考訳）: 近年の研究では、LLMが適切に誘導され、構成されると、混合結果が示されることが明らかになっている。このような結果は、しばしばベースラインのパフォーマンスを満たすか、超える。しかし、これらの比較には2つの大きな問題がある。まず、彼らは主に比較基準として信頼性のみを考慮し、比較のためにいくつかのLCM(CodexやChatGPTなど)を選択した。本稿では LLM Iteration (PELLI) によるプログラム的卓越性(Programmatic Excellence) という,包括的なコード品質評価フレームワークを提案する。 PELLIは、高品質なコード変更を維持できる反復分析ベースのプロセスである。我々は,3つの主要な非機能要件(保守性,性能,信頼性など)を分析し,5つのLLMを選択しながら定量的なメトリクスを生成する総合的な評価を行うことにより,最先端技術を拡張した。 PELLIの適用性については、Pythonのコーディング標準に従って、3つのアプリケーションドメインを選択しました。このフレームワークに従って、実践者はLLMと人間開発者との調和した統合を保証し、そのポテンシャルが完全に実現されるようにします。 PELLIは、LLMを活用しつつ、認識された品質基準に準拠した開発者のための実践的なガイドとして機能する。本研究の結果は, LLM技術の実用化に不可欠であり, 利害関係者はこれらのLLMがどこが優れているのか, どこでさらなる改良が必要なのかを明確に把握することができる。全体として,GPT-4TとGeminiは,3つの非機能要件に基づいて若干改善した。また、迅速な設計が全体的なコード品質に影響を与えることもわかりました。さらに、各アプリケーションドメインは、さまざまな指標に対して高いスコアと低いスコアを示し、異なるプロンプトにまたがる同じメトリクス内でさえも示しました。

関連論文リスト

LaQual: A Novel Framework for Automated Evaluation of LLM App Quality [10.124358468702031]
LaQualはLLMアプリの品質を評価するためのフレームワークだ。 LaQualは3つの主要なステージで構成されている。まず、異なるシナリオに正確にマッチするために、LLMアプリを階層的な方法でラベル付けし分類する。人気のあるLLMアプリストアの実験では、LaQualが有効であることが示されている。
論文参考訳（メタデータ） (2025-08-26T03:25:49Z)
Let's Use ChatGPT To Write Our Paper! Benchmarking LLMs To Write the Introduction of a Research Paper [64.50822834679101]
SciIGは、タイトル、抽象、および関連する作品からコヒーレントな紹介を生成するLLMの能力を評価するタスクである。オープンソース (DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1) およびクローズドソース GPT-4o システムを含む5つの最先端モデルを評価する。結果は、特に意味的類似性と忠実性において、ほとんどのメトリクスにおいて、LLaMA-4 Maverickの優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2025-08-19T21:11:11Z)
On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
Teamwork makes the dream work: LLMs-Based Agents for GitHub README.MD Summarization [7.330697128881243]
様々な大規模言語モデル(LLM)のシナジーを増幅するための新しいアプローチとしてメタジェンテを提案する。メタジェンテ(Metagente)は、特殊エージェント間の評価、フィードバック、協調を通じてシステムを自己最適化する一連のLLMに基づくマルチエージェントフレームワークである。最も関連するベンチマークであるGitSumと比較して、パフォーマンスの向上は27.63%から60.43%である。
論文参考訳（メタデータ） (2025-03-13T20:42:39Z)
A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。 30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。 FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文参考訳（メタデータ） (2024-11-27T03:25:44Z)
Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models [43.56644186785491]
本稿では,大規模言語モデルが生成するコードの品質を包括的に評価する RACE ベンチマークを提案する。 RACEに基づいて28の代表的なLCMを分析し、現在の正しさ中心のベンチマークでは、実世界のシナリオにおけるコードの多面的要求をキャプチャできないことを発見した。
論文参考訳（メタデータ） (2024-07-16T08:08:48Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文参考訳（メタデータ） (2024-04-23T08:24:43Z)
PiCO: Peer Review in LLMs based on the Consistency Optimization [48.48819141999387]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文参考訳（メタデータ） (2024-02-02T18:49:26Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文参考訳（メタデータ） (2023-11-12T17:18:21Z)
LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文参考訳（メタデータ） (2023-08-23T16:32:54Z)
Through the Lens of Core Competency: Survey on Evaluation of Large Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。 LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文参考訳（メタデータ） (2023-08-15T17:40:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。