論文の概要: Code Generation with Small Language Models: A Deep Evaluation on Codeforces
- arxiv url: http://arxiv.org/abs/2504.07343v1
- Date: Wed, 09 Apr 2025 23:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 22:26:09.702511
- Title: Code Generation with Small Language Models: A Deep Evaluation on Codeforces
- Title(参考訳): 小言語モデルによるコード生成: コードフォースの深い評価
- Authors: Débora Souza, Rohit Gheyi, Lucas Albuquerque, Gustavo Soares, Márcio Ribeiro,
- Abstract要約: 小言語モデルは、より高速な推論、デプロイメントオーバーヘッドの低減、ドメイン固有のタスクへの適応性の向上を提供する。
800から2100までのEloレーティングにまたがる280のCodeforce問題の5つのオープンSLMをベンチマークします。
PHI-4 14BはSLMの中で最高の性能を発揮し、パス@3は63.6%だった。
- 参考スコア(独自算出の注目度): 2.314213846671956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated capabilities in code generation, potentially boosting developer productivity. However, their widespread adoption remains limited by high computational costs, significant energy demands, and security risks such as data leakage and adversarial attacks. As a lighter-weight alternative, Small Language Models (SLMs) offer faster inference, lower deployment overhead, and better adaptability to domain-specific tasks, making them an attractive option for real-world applications. While prior research has benchmarked LLMs on competitive programming tasks, such evaluations often focus narrowly on metrics like Elo scores or pass rates, overlooking deeper insights into model behavior, failure patterns, and problem diversity. Furthermore, the potential of SLMs to tackle complex tasks such as competitive programming remains underexplored. In this study, we benchmark five open SLMs - LLAMA 3.2 3B, GEMMA 2 9B, GEMMA 3 12B, DEEPSEEK-R1 14B, and PHI-4 14B - across 280 Codeforces problems spanning Elo ratings from 800 to 2100 and covering 36 distinct topics. All models were tasked with generating Python solutions. PHI-4 14B achieved the best performance among SLMs, with a pass@3 of 63.6%, approaching the proprietary O3-MINI-HIGH (86.8%). In addition, we evaluated PHI-4 14B on C++ and found that combining outputs from both Python and C++ increases its aggregated pass@3 to 73.6%. A qualitative analysis of PHI-4 14B's incorrect outputs revealed that some failures were due to minor implementation issues - such as handling edge cases or correcting variable initialization - rather than deeper reasoning flaws.
- Abstract(参考訳): 大きな言語モデル(LLM)はコード生成の機能を示しており、開発者の生産性を向上させる可能性がある。
しかし、その普及は高い計算コスト、重要なエネルギー需要、データ漏洩や敵攻撃のようなセキュリティリスクによって制限されている。
軽量な代替手段として、Small Language Models(SLM)は、より高速な推論、デプロイメントオーバーヘッドの低減、ドメイン固有のタスクへの適応性の向上を提供する。
以前の研究では、競争力のあるプログラミングタスクに関するLLMのベンチマークが行われていたが、そのような評価は、モデル行動や障害パターン、問題多様性に関する深い洞察を見越して、Eloスコアやパスレートといったメトリクスに絞られていることが多い。
さらに、SLMが競合プログラミングのような複雑なタスクに対処する可能性については、未検討のままである。
本研究では, LLAMA 3.2 3B, GEMMA 2 9B, GEMMA 3 12B, DEEPSEEK-R1 14B, PHI-4 14Bの5つのオープンSLMを, 800から2100のEloレーティングにまたがる280のCodeforceでベンチマークした。
すべてのモデルはPythonソリューションの生成を任された。
PHI-4 14BはSLMの中で最高の性能を発揮し、パス@3は63.6%、プロプライエタリなO3-MINI-HIGH (86.8%) に接近した。
さらに、C++上でPHI-4 14Bを評価し、PythonとC++の出力を組み合わせることで、集約されたpass@3が73.6%に増加することがわかった。
PHI-4 14Bの不正な出力の質的な分析により、いくつかの失敗は、より深い推論欠陥ではなく、エッジケースの処理や変数の初期化の修正といった小さな実装の問題によるものであることが判明した。
関連論文リスト
- Fully Autonomous Programming using Iterative Multi-Agent Debugging with Large Language Models [8.70160958177614]
大言語モデル(LLM)を用いたプログラム合成は「ニアミス症候群」に苦しむ
我々は、SEIDR(Synthesize, Execute, Instruct, Debug and repair)と呼ばれるマルチエージェントフレームワークでこの問題に対処する。
代替に焦点を当てた、修復に焦点を当てた、ハイブリッドなデバッグ戦略を比較することで、これらのトレードオフを実証的に探求します。
論文 参考訳(メタデータ) (2025-03-10T16:56:51Z) - DeepSeek-V3, GPT-4, Phi-4, and LLaMA-3.3 generate correct code for LoRaWAN-related engineering tasks [0.8301471481260676]
本稿では,LoRaWAN関連エンジニアリングタスクの自動化における大規模言語モデル(LLM)の性能について検討する。
これを評価するため、GPT-4やDeepSeek-V3といった最先端のモデルと比較した。
結果、DeepSeek-V3 と GPT-4 は一貫して正確なソリューションを提供していたが、Phi-4 と LLaMA-3.3 のようなより小さなモデルも強力な性能を示した。
論文 参考訳(メタデータ) (2025-02-19T23:16:29Z) - Where's the Bug? Attention Probing for Scalable Fault Localization [18.699014321422023]
本稿では, 直接的位置付けラベルを使わずに, 最先端の故障位置付けを学習するBug Attention Probe(BAP)を提案する。
BAPは計算コストのごく一部で大きなオープンウェイトモデルよりもはるかに効率的である。
論文 参考訳(メタデータ) (2025-02-19T18:59:32Z) - EquiBench: Benchmarking Code Reasoning Capabilities of Large Language Models via Equivalence Checking [54.354203142828084]
本稿では,大規模言語モデルのコード推論能力を評価する新しい手法として等価チェックの課題を提案する。
EquiBenchは、4つのプログラミング言語と6つの等価カテゴリにまたがる2400のプログラムペアのデータセットである。
その結果,OpenAI o3-miniの精度は78.0%と高いことがわかった。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Token-by-Token Regeneration and Domain Biases: A Benchmark of LLMs on Advanced Mathematical Problem-Solving [0.0]
本研究は,MATHデータセットを用いて10大言語モデル(LLM)を70億から80億のパラメータで評価する。
焦点は、9450以上のコード実行を含む、推論プロセスのステップとして実行可能なPythonコードを生成する能力である。
論文 参考訳(メタデータ) (2025-01-28T17:11:36Z) - Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - Uncovering Weaknesses in Neural Code Generation [21.552898575210534]
マッチングベースのメトリクスと実行ベースのメトリクスを用いて生成されたコードの品質を評価し、その後、セマンティック分析を行い、9種類の弱点の分類法を開発する。
CoNaLaデータセットでは、不正確なプロンプトが顕著な問題であり、すべての大きなモデルが26.84%のケースで失敗する。
CoNaLaタスクの65.78%でキーセマンティクスを省略する1つ以上の大きなモデルがある。
すべてのモデルは、あいまいなプロンプトや複雑なプロンプトによって増幅された、適切なAPI使用に苦しむ。
論文 参考訳(メタデータ) (2024-07-13T07:31:43Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Cumulative Reasoning with Large Language Models [12.267474250936123]
累積推論(英: Cumulative Reasoning, CR)は、大規模言語モデルを累積的かつ反復的に利用する手法である。
いくつかの複雑な推論タスクを通じてCRの利点を実証する。
論文 参考訳(メタデータ) (2023-08-08T16:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。