論文の概要: SwiftEval: Developing a Language-Specific Benchmark for LLM-generated Code Evaluation
- arxiv url: http://arxiv.org/abs/2505.24324v1
- Date: Fri, 30 May 2025 08:06:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.841876
- Title: SwiftEval: Developing a Language-Specific Benchmark for LLM-generated Code Evaluation
- Title(参考訳): SwiftEval: LLM生成コード評価のための言語固有のベンチマークの開発
- Authors: Ivan Petrukha, Yana Kurliak, Nataliia Stulova,
- Abstract要約: SwiftEvalは、手作業による問題28件からなる最初のSwift指向のベンチマークで、44の人気のあるコードLLMを評価します。
その結果,LLMは言語固有の機能を必要とする問題に対して顕著なスコア低下を示し,より小型のモデルでは最も顕著であった。
- 参考スコア(独自算出の注目度): 0.4962561299282114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large language models (LLMs) have showcased significant advancements in code generation. However, most evaluation benchmarks are primarily oriented towards Python, making it difficult to evaluate other programming languages, such as Swift, with high quality. By examining widely established multilingual benchmarks like HumanEval-XL and MultiPL-E, we identified critical issues specific to their Swift components, making them insufficient or even irrelevant for assessing LLM coding capabilities on Swift. Unlike these existing approaches, which prioritize rapid scaling and generalization by automatically translating Python-centric benchmarks with LLMs, we adopt a quality-over-quantity methodology. We present SwiftEval, the first Swift-oriented benchmark consisting of 28 carefully hand-crafted problems, and evaluate 44 popular Code LLMs on it. Our results show significant LLM scores drop for problems requiring language-specific features, most noticeable in the models of smaller sizes.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) はコード生成の大幅な進歩を見せている。
しかし、ほとんどの評価ベンチマークは主にPythonに向けられているため、Swiftのような他のプログラミング言語を高品質で評価することは困難である。
HumanEval-XLやMultiPL-Eといった広く確立されたマルチ言語ベンチマークを調べることで、Swiftコンポーネントに特有の重要な問題を特定しました。
LLMでPython中心のベンチマークを自動的に翻訳することで、高速なスケーリングと一般化を優先する既存のアプローチとは異なり、我々は品質オーバークォリティ手法を採用しています。
SwiftEvalは、手作業による問題28件からなる最初のSwift指向のベンチマークで、44の人気のあるコードLLMを評価します。
その結果,LLMは言語固有の機能を必要とする問題に対して顕著なスコア低下を示し,より小型のモデルでは最も顕著であった。
関連論文リスト
- Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLMs [1.9207412600219353]
我々はPythonコード生成のベンチマークを2つ評価し、その多様性と難易度を分析した。
我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。
我々は,38のプログラミング概念をバランスよく表現した185個の手作りプロンプトを特徴とする新しいベンチマークPythonSagaを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。