Fugu-MT 論文翻訳(概要): An Agentic Evaluation Framework for AI-Generated Scientific Code in PETSc

論文の概要: An Agentic Evaluation Framework for AI-Generated Scientific Code in PETSc

arxiv url: http://arxiv.org/abs/2603.15976v1
Date: Mon, 16 Mar 2026 22:46:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.025586
Title: An Agentic Evaluation Framework for AI-Generated Scientific Code in PETSc
Title（参考訳）: PETScにおけるAI生成科学コードのエージェント評価フレームワーク
Authors: Hong Zhang, Barry Smith, Satish Balay, Le Chen, Murat Keceli, Lois Curfman McInnes, Junchao Zhang,
Abstract要約: petscagent-benchはエージェント評価エージェントのパラダイムに基づいて構築されたエージェントフレームワークである。正確性、パフォーマンス、コード品質、アルゴリズムの適切性、ライブラリ固有の規約の5つの評価カテゴリで14評価パイプラインを編成する。本フレームワークは,HPC用PETScライブラリを用いて,現実的な問題のベンチマークスイート上で実演する。
参考スコア（独自算出の注目度）: 7.236134946837382
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While large language models have significantly accelerated scientific code generation, comprehensively evaluating the generated code remains a major challenge. Traditional benchmarks reduce evaluation to test-case matching, an approach insufficient for library code in HPC where solver selection, API conventions, memory management, and performance are just as critical as functional correctness. To address this gap, we introduce petscagent-bench, an agentic framework built on an agents-evaluating-agents paradigm. Instead of relying on static scripts, petscagent-bench deploys a tool-augmented evaluator agent that compiles, executes, and measures code produced by a separate model-under-test agent, orchestrating a 14-evaluator pipeline across five scoring categories: correctness, performance, code quality, algorithmic appropriateness, and library-specific conventions. Because the agents communicate through standardized protocols (A2A and MCP), the framework enables black-box evaluation of any coding agent without requiring access to its source code. We demonstrate the framework on a benchmark suite of realistic problems using the PETSc library for HPC. Our empirical analysis of frontier models reveals that while current models generate readable, well-structured code, they consistently struggle with library-specific conventions that traditional pass/fail metrics completely miss.
Abstract（参考訳）: 大きな言語モデルは科学的コード生成を著しく加速しているが、生成されたコードを包括的に評価することは大きな課題である。従来のベンチマークでは、ソルバの選択、API規約、メモリ管理、パフォーマンスが機能的正当性と同じくらい重要であるHPCのライブラリコードには不十分なアプローチであるテストケースマッチングの評価が削減されている。このギャップに対処するために,エージェント評価エージェントのパラダイムに基づいて構築されたエージェントフレームワークである petscagent-bench を導入する。静的スクリプトに頼る代わりに、pescagent-benchはツール拡張評価エージェントをデプロイし、別個のモデルアンダーテストエージェントによって生成されたコードをコンパイル、実行、測定し、14-評価パイプラインを5つの評価カテゴリ(正確性、パフォーマンス、コード品質、アルゴリズム的適切性、ライブラリ固有の規約)に編成する。エージェントは標準化されたプロトコル (A2A と MCP) を介して通信するため、このフレームワークはソースコードへのアクセスを必要とせずに、任意のコーディングエージェントのブラックボックス評価を可能にする。本フレームワークは,HPC用PETScライブラリを用いて,現実的な問題のベンチマークスイート上で実演する。私たちのフロンティアモデルに関する実証的な分析によると、現在のモデルは読みやすく、構造化されたコードを生成するが、従来のパス/フェイルメトリクスが完全に見逃しているライブラリ固有の規約に一貫して苦労している。

関連論文リスト

CR-Bench: Evaluating the Real-World Utility of AI Code Review Agents [0.7496422063843831]
我々は、ベンチマークデータセットであるCR-Benchと、コードレビューエージェントのためのきめ細かい評価パイプラインであるCR-Evaluatorを紹介する。コードレビューエージェントは、隠されたすべての問題を特定するために設計された場合、低信号対雑音比を示すことができる。本分析では,課題解決と突発的な発見との間に隠されたトレードオフを明らかにし,効果的なエージェント設計を制約するフロンティアを明らかにした。
論文参考訳（メタデータ） (2026-03-10T21:29:42Z)
SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。 SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。 SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文参考訳（メタデータ） (2025-11-07T18:01:32Z)
Do Large Language Models Respect Contracts? Evaluating and Enforcing Contract-Adherence in Code Generation [11.445615378917578]
PACTは、プログラムアセスメントおよび契約順応評価フレームワークである。契約違反に焦点を当てた包括的なテストスーツコーパスを提供する。様々なプロンプト条件下でのコード生成の体系的解析を可能にする。
論文参考訳（メタデータ） (2025-10-14T01:12:37Z)
Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文参考訳（メタデータ） (2025-08-27T03:15:53Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
RepoMasterEval: Evaluating Code Completion via Real-World Repositories [14.744942194298673]
RepoMasterEvalは、現実世界のリポジトリから構築されたコード補完モデルを評価するための新しいベンチマークである。各ベンチマークは、1つのソースコードファイルから既存のテストスイートでコードスニペットをマスキングすることで生成される。
論文参考訳（メタデータ） (2024-08-07T03:06:57Z)
SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文参考訳（メタデータ） (2024-06-18T14:54:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。