論文の概要: WALL: A Web Application for Automated Quality Assurance using Large Language Models
- arxiv url: http://arxiv.org/abs/2509.09918v1
- Date: Fri, 12 Sep 2025 01:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.955554
- Title: WALL: A Web Application for Automated Quality Assurance using Large Language Models
- Title(参考訳): WALL: 大規模言語モデルを用いた品質保証自動化のためのWebアプリケーション
- Authors: Seyed Moein Abtahi, Akramul Azim,
- Abstract要約: 本稿では,SonarQubeと大規模言語モデル(LLM)を統合したWebアプリケーションWALLについて述べる。
WALLには、イシュー抽出ツール、コードイシューリバイザ、コード比較ツールの3つのモジュールが含まれている。
7,599件以上のファイルで実験を行い,高品質なリビジョンを維持しつつ,人間の努力を減らしたWALLの有効性を実証した。
- 参考スコア(独自算出の注目度): 0.9582466286528458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As software projects become increasingly complex, the volume and variety of issues in code files have grown substantially. Addressing this challenge requires efficient issue detection, resolution, and evaluation tools. This paper presents WALL, a web application that integrates SonarQube and large language models (LLMs) such as GPT-3.5 Turbo and GPT-4o to automate these tasks. WALL comprises three modules: an issue extraction tool, code issues reviser, and code comparison tool. Together, they enable a seamless pipeline for detecting software issues, generating automated code revisions, and evaluating the accuracy of revisions. Our experiments, conducted on 563 files with over 7,599 issues, demonstrate WALL's effectiveness in reducing human effort while maintaining high-quality revisions. Results show that employing a hybrid approach of cost-effective and advanced LLMs can significantly lower costs and improve revision rates. Future work aims to enhance WALL's capabilities by integrating open-source LLMs and eliminating human intervention, paving the way for fully automated code quality management.
- Abstract(参考訳): ソフトウェアプロジェクトがますます複雑化するにつれ、コードファイルの量や問題は大きくなりつつある。
この課題に対処するには、効率的な問題検出、解決、評価ツールが必要である。
本稿では,SonarQube と GPT-3.5 Turbo や GPT-4o などの大規模言語モデル (LLM) を統合した Web アプリケーション WALL について述べる。
WALLには、イシュー抽出ツール、コードイシューリバイザ、コード比較ツールの3つのモジュールが含まれている。
同時に、ソフトウェア問題を検出し、自動コードリビジョンを生成し、リビジョンの正確性を評価するためのシームレスなパイプラインを可能にする。
7,599件以上のファイルで実験を行い,高品質なリビジョンを維持しつつ,人間の努力を減らしたWALLの有効性を実証した。
その結果、コスト効率と高度なLCMのハイブリッドアプローチを用いることで、コストを大幅に削減し、リビジョン率を向上できることがわかった。
今後の作業は、WALLの機能を強化することを目的として、オープンソースのLLMを統合し、人間の介入をなくし、完全に自動化されたコード品質管理の道を開く。
関連論文リスト
- A Survey of LLM-based Automated Program Repair: Taxonomies, Design Paradigms, and Applications [12.409034344742768]
大規模言語モデル (LLM) は自動プログラム修復 (APR) を再構築している
我々は2022年1月から2025年6月までに発行された63 LLMベースのAPRシステムを4つのパラダイムに分類した。
微調整は高いトレーニングコストで強力なタスクアライメントを提供する。迅速なデプロイメントを可能にするが、迅速な設計とコンテキストウィンドウによって制限される。
我々は,軽量な人的フィードバック,リポジトリ対応検索,コード解析,コスト対応計画を組み合わせることで,信頼性と効率的なLDMベースのAPRを向上する研究の方向性を概説する。
論文 参考訳(メタデータ) (2025-06-30T11:46:01Z) - Augmenting Large Language Models with Static Code Analysis for Automated Code Quality Improvements [0.36832029288386137]
本研究では,大規模言語モデル(LLM)をソフトウェア開発に組み込んだコード問題検出と修正自動化について検討した。
静的コード分析フレームワークは、大規模なソフトウェアプロジェクトの中でバグや脆弱性、コードの臭いなどの問題を検出する。
検索拡張世代(RAG)は、リビジョンの関連性と精度を高めるために実装される。
論文 参考訳(メタデータ) (2025-06-12T03:39:25Z) - LLM4CVE: Enabling Iterative Automated Vulnerability Repair with Large Language Models [9.946058168276744]
大規模言語モデル(LLM)は、多くのソフトウェア欠陥が自動的にパッチを当てられる可能性を開放した。
実世界のコードで脆弱な関数を高い精度で堅牢に修正する反復パイプラインを提案する。
また,Llama 370Bでは,人間の検証による品質スコアが8.51/10,Llama 370Bでは20%に向上した。
論文 参考訳(メタデータ) (2025-01-07T00:21:42Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language
Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。
長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。
本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。