Fugu-MT 論文翻訳(概要): CelloAI Benchmarks: Toward Repeatable Evaluation of AI Assistants

論文の概要: CelloAI Benchmarks: Toward Repeatable Evaluation of AI Assistants

arxiv url: http://arxiv.org/abs/2603.01051v1
Date: Sun, 01 Mar 2026 11:16:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.48086
Title: CelloAI Benchmarks: Toward Repeatable Evaluation of AI Assistants
Title（参考訳）: CelloAIベンチマーク:AIアシスタントの繰り返し評価に向けて
Authors: Mohammad Atif, Kriti Chopra, Fang-Ying Tsai, Ozgur O. Kilic, Tianle Wang, Zhihua Dong, Douglas Benjamin, Charles Leggett, Meifeng Lin, Paolo Calafiura, Salman Habib,
Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア開発にますます使われている。 LLMベースのコーディング支援のための既存のベンチマークは、高エネルギー物理学と高性能コンピューティングソフトウェアの制約を反映していない。本稿では,HEP/HPC関連タスクにおけるLLM性能を定量化する,実用的で繰り返し可能なベンチマークを開発する。
参考スコア（独自算出の注目度）: 2.2811622267552014
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLM) are increasingly used for software development, yet existing benchmarks for LLM-based coding assistance do not reflect the constraints of High Energy Physics (HEP) and High Performance Computing (HPC) software. Code correctness must respect science constraints and changes must integrate into large, performance-critical codebases with complex dependencies and build systems. The primary contribution of this paper is the development of practical, repeatable benchmarks that quantify LLM performance on HEP/HPC-relevant tasks. We introduce three evaluation tracks -- code documentation benchmarks measure the ability of an LLM to generate Doxygen-style comments, code generation benchmarks evaluate end-to-end usability on representative GPU kernels, and graphical data analysis benchmarks evaluate vision-enabled LLMs. These benchmarks provide a unified framework for measuring progress in scientific coding assistance across documentation quality, code generation robustness, and multimodal validation analysis. By emphasizing repeatability, automated scoring, and domain-relevant failure modes, the suite enables fair comparisons of models and settings while supporting future work on methods that improve reliability for HEP/HPC software development.
Abstract（参考訳）: 大規模言語モデル(LLM)はソフトウェア開発にますます使われているが、LLMベースのコーディング支援のための既存のベンチマークは、高エネルギー物理学(HEP)やハイパフォーマンスコンピューティング(HPC)ソフトウェアの制約を反映していない。コードの正確性は科学的な制約を尊重しなければなりませんし、変更は複雑な依存関係とビルドシステムを備えた大規模でパフォーマンスクリティカルなコードベースに統合する必要があります。本研究の主な貢献は,HEP/HPC関連タスクにおけるLLM性能を定量化する,実用的で繰り返し可能なベンチマークの開発である。コードドキュメンテーションベンチマークは、Doxygenスタイルのコメントを生成するためのLLMの能力を測定し、コード生成ベンチマークは、代表的GPUカーネルにおけるエンドツーエンドのユーザビリティを評価し、グラフィカルデータ分析ベンチマークは、ビジョン対応のLLMを評価する。これらのベンチマークは、ドキュメントの品質、コード生成の堅牢性、マルチモーダル検証分析を含む、科学的コーディング支援の進捗を測定する統一的なフレームワークを提供する。再現性、自動スコアリング、ドメイン関連障害モードを強調することで、このスイートはモデルと設定の公正な比較を可能にし、HEP/HPCソフトウェア開発の信頼性を向上させる手法の今後の開発をサポートする。

関連論文リスト

Evaluating and Achieving Controllable Code Completion in Code LLM [89.64782747840225]
命令誘導型コード補完ベンチマークである制御可能コード補完ベンチマーク(C3-Bench)を提案する。コード補完作業中に,オープンソースのプロプライエタリモデルと高度なプロプライエタリモデルの間に,命令追従機能にかなりのギャップがあることを明らかにする。結果として得られたQwen2.5-Coder-C3は、C3-Bench上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-01-22T11:40:04Z)
PACIFIC: a framework for generating benchmarks to check Precise Automatically Checked Instruction Following In Code [1.1164117387254457]
大言語モデル(LLM)ベースのコードアシスタントは、生成AIの強力な応用として登場した。これらのシステムの主な要件は、ユーザの指示を正確に従う能力である。 PACIFICは,逐次命令追従機能とコードドライラン機能とを厳格に評価するベンチマークを自動的に生成する新しいフレームワークである。
論文参考訳（メタデータ） (2025-12-11T14:49:56Z)
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文参考訳（メタデータ） (2025-11-23T17:09:34Z)
MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
SIMCOPILOT: Evaluating Large Language Models for Copilot-Style Code Generation [5.880496520248658]
SIMCOPILOTは、対話型"コパイロット"スタイルのコーディングアシスタントとして、大規模言語モデル(LLM)の役割をシミュレートするベンチマークである。ベンチマークには、Java(SIMCOPILOTJ)とPython用の専用のサブベンチマークが含まれている。
論文参考訳（メタデータ） (2025-05-21T04:59:44Z)
TuRTLe: A Unified Evaluation of LLMs for RTL Generation [0.6010802600885173]
本研究では,主要なRTL生成タスク間でLLMを評価するための統合評価フレームワークTuRTLeを提案する。オープンLLMの多様なセットをベンチマークし、EDA固有のタスクの長所と短所を分析します。以上の結果から,DeepSeek R1のような推論モデルの方が,複数の評価基準で常に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-03-31T07:43:12Z)
Do Large Language Models Understand Performance Optimization? [0.9320657506524149]
大規模言語モデル(LLM)は、コード補完、翻訳、最適化といったソフトウェア開発タスクのための強力なツールとして登場した。本稿では,複数の重要なHPC計算モチーフを含むベンチマークスイートについて,最先端のLLMで最適化されたコードの性能を評価する。
論文参考訳（メタデータ） (2025-03-17T23:30:23Z)
CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [20.013757490442064]
タスク指向の命令に準拠する大規模言語モデル(LLM)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。 CodeIFは関数合成、アルゴリズム命令、コード説明など幅広いタスクを含んでいる。我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文参考訳（メタデータ） (2025-02-26T14:19:49Z)
A Survey on Evaluating Large Language Models in Code Generation Tasks [30.256255254277914]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文参考訳（メタデータ） (2024-08-29T12:56:06Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。