Fugu-MT 論文翻訳(概要): SwiftEval: Developing a Language-Specific Benchmark for LLM-generated Code Evaluation

論文の概要: SwiftEval: Developing a Language-Specific Benchmark for LLM-generated Code Evaluation

arxiv url: http://arxiv.org/abs/2505.24324v1
Date: Fri, 30 May 2025 08:06:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.841876
Title: SwiftEval: Developing a Language-Specific Benchmark for LLM-generated Code Evaluation
Title（参考訳）: SwiftEval: LLM生成コード評価のための言語固有のベンチマークの開発
Authors: Ivan Petrukha, Yana Kurliak, Nataliia Stulova,
Abstract要約: SwiftEvalは、手作業による問題28件からなる最初のSwift指向のベンチマークで、44の人気のあるコードLLMを評価します。その結果,LLMは言語固有の機能を必要とする問題に対して顕著なスコア低下を示し,より小型のモデルでは最も顕著であった。
参考スコア（独自算出の注目度）: 0.4962561299282114
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, large language models (LLMs) have showcased significant advancements in code generation. However, most evaluation benchmarks are primarily oriented towards Python, making it difficult to evaluate other programming languages, such as Swift, with high quality. By examining widely established multilingual benchmarks like HumanEval-XL and MultiPL-E, we identified critical issues specific to their Swift components, making them insufficient or even irrelevant for assessing LLM coding capabilities on Swift. Unlike these existing approaches, which prioritize rapid scaling and generalization by automatically translating Python-centric benchmarks with LLMs, we adopt a quality-over-quantity methodology. We present SwiftEval, the first Swift-oriented benchmark consisting of 28 carefully hand-crafted problems, and evaluate 44 popular Code LLMs on it. Our results show significant LLM scores drop for problems requiring language-specific features, most noticeable in the models of smaller sizes.
Abstract（参考訳）: 近年,大規模言語モデル (LLM) はコード生成の大幅な進歩を見せている。しかし、ほとんどの評価ベンチマークは主にPythonに向けられているため、Swiftのような他のプログラミング言語を高品質で評価することは困難である。 HumanEval-XLやMultiPL-Eといった広く確立されたマルチ言語ベンチマークを調べることで、Swiftコンポーネントに特有の重要な問題を特定しました。 LLMでPython中心のベンチマークを自動的に翻訳することで、高速なスケーリングと一般化を優先する既存のアプローチとは異なり、我々は品質オーバークォリティ手法を採用しています。 SwiftEvalは、手作業による問題28件からなる最初のSwift指向のベンチマークで、44の人気のあるコードLLMを評価します。その結果,LLMは言語固有の機能を必要とする問題に対して顕著なスコア低下を示し,より小型のモデルでは最も顕著であった。

関連論文リスト

Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。その結果,2つの領域間に大きな性能差が認められた。
論文参考訳（メタデータ） (2025-05-22T12:27:02Z)
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
ClassEval-T: Evaluating Large Language Models in Class-Level Code Translation [19.69195067838796]
クラスレベルのコード翻訳ベンチマークであるClassEval-Tを構築し、クラスレベルのコード翻訳における最近のLLMの性能を広範囲に評価する最初の試みを行う。完全なコードサンプルと関連するテストスイートを使って、JavaとC++への手動移行を実現するのに、私たちは360人時間を費やしました。実験結果は,最も広く研究されているメソッドレベルのコード翻訳ベンチマークと比較して,顕著な性能低下を示した。
論文参考訳（メタデータ） (2024-11-09T11:13:14Z)
ProverbEval: Exploring LLM Evaluation Challenges for Low-resource Language Understanding [15.93642619347214]
低リソース言語のためのLLM評価ベンチマークであるprovrbevalを導入する。ネイティブ言語のpromrb記述はpromrb生成のようなタスクを大幅に改善する。単言語評価は、生成タスクにおける言語間比較よりも一貫して優れていた。
論文参考訳（メタデータ） (2024-11-07T06:34:48Z)
mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文参考訳（メタデータ） (2024-10-19T08:44:26Z)
CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。 Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文参考訳（メタデータ） (2024-08-23T11:43:00Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLMs [1.9207412600219353]
我々はPythonコード生成のベンチマークを2つ評価し、その多様性と難易度を分析した。我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。我々は,38のプログラミング概念をバランスよく表現した185個の手作りプロンプトを特徴とする新しいベンチマークPythonSagaを提案する。
論文参考訳（メタデータ） (2024-01-08T12:36:43Z)
Instruction-Following Evaluation for Large Language Models [52.90926820437014]
大規模言語モデルに対するインストラクション・フォロー・エスバル(IFEval)を提案する。 IFEvalは、単純で簡単に再現できる評価ベンチマークである。市場における2つのLLMの評価結果を示す。
論文参考訳（メタデータ） (2023-11-14T05:13:55Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。