論文の概要: RAL-Bench: Benchmarking for Application-Level Functional Correctness and Non-Functional Quality Attributes
- arxiv url: http://arxiv.org/abs/2602.03462v1
- Date: Tue, 03 Feb 2026 12:35:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.444576
- Title: RAL-Bench: Benchmarking for Application-Level Functional Correctness and Non-Functional Quality Attributes
- Title(参考訳): RAL-Bench: アプリケーションレベルの機能的正確性と非ファンクション品質属性のベンチマーク
- Authors: Ruwei Pan, Yakun Zhang, Qingyuan Liang, Yueheng Zhu, Chao Liu, Lu Zhang, Hongyu Zhang,
- Abstract要約: RAL-Benchはアプリケーションレベルのコード生成のためのベンチマークおよび評価フレームワークである。
各タスクに対して,高品質な参照プロジェクトから簡潔な自然言語要求を抽出する。
Black-boxシステムテストは機能的および非機能的属性をカバーし、参照リポジトリに渡すテストのみを保持する。
- 参考スコア(独自算出の注目度): 12.202503919149118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code generation has advanced rapidly with code-focused large language models (LLMs), especially on snippet-level tasks. However, application-level generation requires producing a runnable multi-file repository with correct structure, dependencies, and end-to-end executability, and real-world software must satisfy both functional correctness and non-functional quality (e.g., maintainability, security). Existing benchmarks provide a limited execution-based assessment of these requirements at the application level. We ask: Can current LLMs generate application-level repositories that meet both functional and non-functional criteria? We propose RAL-Bench, a benchmark and evaluation framework for application-level code generation. For each task, we distill a concise natural-language requirement from a high-quality reference project, build black-box system tests covering functional and non-functional attributes, and keep only tests that pass on the reference repository to ensure a sound oracle and an end-to-end executable suite. Functional correctness is measured by system-test pass rate. Non-functional quality is measured along five ISO/IEC 25010-inspired dimensions and aggregated with an Analytic Hierarchy Process (AHP)-derived weight vector, with per-dimension diagnostics and baseline-normalized scoring using reference measurements. Across 16 LLMs evaluated zero-shot with greedy decoding, functional correctness is the dominant bottleneck: no model exceeds a 45% functional pass rate under our requirement-driven, reference-validated tests. We release RAL-Bench at https://github.com/Wwstarry/RAL-Bench. .
- Abstract(参考訳): コード生成はコード中心の大規模言語モデル(LLM)、特にスニペットレベルのタスクによって急速に進歩した。
しかし、アプリケーションレベルの生成には、正しい構造、依存関係、エンドツーエンドの実行性を備えた実行可能なマルチファイルリポジトリを生成する必要があり、現実世界のソフトウェアは、機能的正確性と非機能的品質(例えば、保守性、セキュリティ)の両方を満たす必要がある。
既存のベンチマークは、アプリケーションレベルでこれらの要件を限定的な実行ベースで評価する。
現在のLLMは機能的基準と非機能的基準の両方を満たすアプリケーションレベルのリポジトリを生成することができるか?
アプリケーションレベルのコード生成のためのベンチマークおよび評価フレームワークであるRAL-Benchを提案する。
各タスクに対して、高品質な参照プロジェクトから簡潔な自然言語要件を抽出し、機能的および非機能的属性をカバーするブラックボックスシステムテストを構築し、参照リポジトリに渡されるテストのみを保持し、音のオラクルとエンドツーエンドの実行スイートを保証する。
機能的正しさは、システムテストパスレートによって測定される。
非機能的品質は、ISO/IEC 25010にインスパイアされた5つの次元に沿って測定され、分析階層プロセス(AHP)由来の重みベクトルで集約される。
16個のLCMを用いてゼロショットの評価を行ったところ、機能的正確性は主要なボトルネックであり、要求駆動の基準検証テストでは、機能的パスレートが45%を超えなかった。
RAL-Benchはhttps://github.com/Wwstarry/RAL-Bench.comで公開しています。
と。
関連論文リスト
- DEP: A Decentralized Large Language Model Evaluation Protocol [51.3646001384887]
分散評価プロトコル(Decentralized Evaluation Protocol, DEP)は、分散化されているが統一され、標準化された評価フレームワークである。
ユーザ、LLM、ベンチマークを分離することで、DEPはモジュラー、プラグ・アンド・プレイの評価を可能にする。
我々は,ブレークポイントの再開,同時要求,混雑制御などの機能をサポートするプロトコル互換ツールキットであるDEP Toolkitを開発した。
論文 参考訳(メタデータ) (2026-03-01T16:10:16Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - FeatBench: Evaluating Coding Agents on Feature Implementation for Vibe Coding [11.846768103642583]
FeatBenchは、機能実装に焦点を当てた、バイブコーディングのための新しいベンチマークである。
FeatBenchは、ベンチマークを進化させるための品質と完全に自動化されたパイプラインを保証するために、マルチレベルのフィルタリングパイプライン上に構築されている。
我々の評価によると、ビブ符号化パラダイムにおける機能実装は重要な課題であり、最高成功率は29.94%である。
論文 参考訳(メタデータ) (2025-09-26T11:47:50Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation [26.14778133391999]
FEA-Benchは、大規模な言語モデルがコードリポジトリ内でインクリメンタルな開発を行う能力を評価するために設計されたベンチマークである。
83のGitHubリポジトリからのプルリクエストを収集し、ルールベースとインテントベースのフィルタリングを使用して、新機能開発にフォーカスしたタスクインスタンスを構築します。
論文 参考訳(メタデータ) (2025-03-09T16:11:57Z) - SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair [51.0686873716938]
コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。
本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。
その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-03-03T01:55:20Z) - A Systematic Approach for Assessing Large Language Models' Test Case Generation Capability [0.8287206589886879]
大規模言語モデル (LLM) を評価するために,制御フロー構造と可変利用構成 (GBCV) から生成したベンチマークを提案する。
基本的な制御フロー構造と変数使用量を活用することで、GBCVは、単純なプログラムから複雑なプログラムの範囲を作成する柔軟なフレームワークを提供する。
以上の結果から,GPT-4oは複雑なプログラム構造において優れた性能を示し,全てのモデルが単純な条件下で境界値を効果的に検出するが,算術計算では問題に直面することが示唆された。
論文 参考訳(メタデータ) (2025-02-05T03:51:44Z) - DI-BENCH: Benchmarking Large Language Models on Dependency Inference with Testable Repositories at Scale [39.92722886613929]
DI-BENCHは、大規模言語モデルの依存性推論能力を評価するために設計された、大規模なベンチマークおよび評価フレームワークである。
ベンチマークでは、Python、C#、Rust、JavaScriptにまたがるテスト環境を備えた581のリポジトリが提供されている。
テキストと実行ベースのメトリクスによる大規模な実験により、現在の最高のパフォーマンスモデルは42.9%の実行パス率しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2025-01-23T14:27:11Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。