論文の概要: Evaluating SAP Joule for Code Generation
- arxiv url: http://arxiv.org/abs/2509.24828v1
- Date: Mon, 29 Sep 2025 14:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.040791
- Title: Evaluating SAP Joule for Code Generation
- Title(参考訳): コード生成のためのSAPジュールの評価
- Authors: Joshua Heisler, Johannes Reisinger, Andreas Fischer,
- Abstract要約: SAPは独自の生成モデルであるSAP Jouleをリリースした。
本稿では、SAP JoulesのJavascriptコーディング機能と、29の他のモデルを比較した。
SAP Jouleは、評価において5番目の最良のモデルとして、80.49%の厳密な精度を達成する。
- 参考スコア(独自算出の注目度): 0.38597698994416435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SAP has released its own proprietary generative model SAP Joule, intended for various generative tasks, including serving as a code assistant for software engineers. While Joule is yet not focused on SAP-specific ABAP code generation, it can be used for other common languages, including Javascript. This paper compares SAP Joules Javascript coding capabilities against a total of 29 other models using the HumanEval-X Javascript benchmark. SAP Joule achieves a strict accuracy of 80.49% as the fifth best model in our evaluation. To the best of our knowledge, this is the first comparative evaluation of SAP Joule code generation capabilities.
- Abstract(参考訳): SAPは独自の生成モデルであるSAP Jouleをリリースした。
JouleはまだSAP固有のABAPコード生成に重点を置いていないが、Javascriptを含む他の共通言語で使用することができる。
本稿では,HumanEval-X ベンチマークを用いて,SAP Joules の Javascript 符号化機能と,29 の他のモデルとの比較を行った。
SAP Jouleは、評価において5番目の最良のモデルとして、80.49%の厳密な精度を達成する。
私たちの知る限りでは、これはSAP Jouleコード生成機能の比較評価としては初めてのものです。
関連論文リスト
- SWE-PolyBench: A multi-language benchmark for repository level evaluation of coding agents [49.73885480071402]
我々はSWE-PolyBenchを紹介した。SWE-PolyBenchは、コードエージェントのリポジトリレベル、実行ベース評価のための新しいベンチマークである。
SWE-PolyBenchには21のリポジトリから2110のインスタンスが含まれており、Java(165)、JavaScript(1017)、TypeScript(729)、Python(199)のタスクが含まれており、バグ修正、機能追加、コードを含んでいる。
実験の結果,現在のエージェントは言語間で不均一なパフォーマンスを示し,複雑な問題に対処しつつ,単純なタスクで高いパフォーマンスを示すことがわかった。
論文 参考訳(メタデータ) (2025-04-11T17:08:02Z) - jscefr: A Framework to Evaluate the Code Proficiency for JavaScript [1.7174932174564534]
jscefr(Jes-cee-fer)は、JavaScript(JS)言語のさまざまな要素の使用を検出するツールである。
jscefrはJSコードを6つのレベルに分類する。
論文 参考訳(メタデータ) (2024-08-29T11:37:49Z) - GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization
in Programming Language Understanding [5.9535699822923]
我々は,言語モデルの言語理解能力を評価するために,GenCodeSearchNet (GeCS) という新しいベンチマークデータセットを提案する。
完全なデータセットの一部として、我々が導入した新しい手作業でキュレートされたサブセットであるStatCodeSearchは、人気があるが、これまでのところあまり表現されていないプログラミング言語である。
評価と比較のために、細調整されたBERTスタイルモデルとGPTスタイルの大規模言語モデルを用いて、いくつかのベースライン結果を収集した。
論文 参考訳(メタデータ) (2023-11-16T09:35:00Z) - BioCoder: A Benchmark for Bioinformatics Code Generation with Large Language Models [27.772192759716116]
バイオインフォマティクス固有のコードを生成する際に,大規模言語モデル(LLM)を評価するために開発されたベンチマークであるBioCoderを提案する。
BioCoderは、ファイル間の依存関係、クラス宣言、グローバル変数を含む、フィールドの大部分にまたがる。
本報告では, 包含コード全体の網羅範囲がバイオインフォマティクス計算の完全なスペクトルであることを示す。
論文 参考訳(メタデータ) (2023-08-31T04:52:58Z) - A Preliminary Analysis on the Code Generation Capabilities of GPT-3.5
and Bard AI Models for Java Functions [5.0232749277810615]
GPT-3.5は優れた性能を示し、関数記述の約90.6%の正しいコードを生成する。
Bardは53.1%の関数に対して正しいコードを生成する。
論文 参考訳(メタデータ) (2023-05-16T12:44:39Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。
我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。
モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文 参考訳(メタデータ) (2020-02-19T13:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。