論文の概要: Where Do LLMs Still Struggle? An In-Depth Analysis of Code Generation Benchmarks
- arxiv url: http://arxiv.org/abs/2511.04355v1
- Date: Thu, 06 Nov 2025 13:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.432956
- Title: Where Do LLMs Still Struggle? An In-Depth Analysis of Code Generation Benchmarks
- Title(参考訳): LLMはいまだ安定していないのか? コード生成ベンチマークの詳細な分析
- Authors: Amir Molzam Sharifloo, Maedeh Heydari, Parsa Kazerooni, Daniel Maninger, Mira Mezini,
- Abstract要約: 大規模言語モデル(LLM)はコード生成において大きな成功を収めています。
4つの人気のあるベンチマークでコード生成タスクを調べ、主要なLCMが失敗する可能性が最も高いものを特定しました。
分析の結果,LSMでは4つの欠陥パターンが繰り返し発生し,またベンチマークタスクに共通する合併症がしばしば失敗に繋がることが明らかとなった。
- 参考スコア(独自算出の注目度): 2.979785960419084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success in code generation, and the race to improve their performance has become a central focus of AI research. Benchmarks and leaderboards are increasingly popular, offering quantitative rankings of LLMs. However, they provide limited insight into the tasks that LLMs consistently fail to solve - information that is crucial for understanding current limitations and guiding the development of more capable models. To address this gap, we examined code generation tasks across four popular benchmarks, identifying those that major LLMs are most likely to fail. To understand the causes of these failures, we investigated whether the static complexity of solution code contributes to them, followed by a systematic inspection of 114 tasks that LLMs consistently struggled with. Our analysis revealed four recurring patterns of weaknesses in LLMs, as well as common complications within benchmark tasks that most often lead to failure.
- Abstract(参考訳): 大規模言語モデル(LLM)はコード生成において顕著な成功を収めており、そのパフォーマンス向上競争がAI研究の中心となっている。
ベンチマークとリーダーボードはますます人気があり、LLMの定量的ランキングを提供する。
しかし、LLMが常に解決できないタスク、すなわち現在の制限を理解し、より有能なモデルの開発を導くのに不可欠な情報について、限定的な洞察を提供する。
このギャップに対処するため、私たちは4つの人気のあるベンチマークでコード生成タスクを調べ、主要なLLMが失敗する可能性が最も高いものを特定しました。
これらの障害の原因を理解するため,LLMが一貫して抱えていた114のタスクを体系的に検査し,解コードの静的な複雑さがそれらに寄与するかどうかを検討した。
分析の結果,LSMでは4つの欠陥パターンが繰り返し発生し,またベンチマークタスクに共通する合併症がしばしば失敗に繋がることが明らかとなった。
関連論文リスト
- LLM-based Vulnerability Discovery through the Lens of Code Metrics [6.339440992743381]
大規模言語モデル(LLM)は、ソフトウェア工学の多くのタスクに優れています。
脆弱性発見に活用する進歩は 近年 停滞しています。
論文 参考訳(メタデータ) (2025-09-23T15:03:05Z) - LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。
LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文 参考訳(メタデータ) (2025-07-29T02:34:28Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。