論文の概要: Where Do Large Language Models Fail on Competitive Programming? A Taxonomy of Failures by Algorithm Type and Difficulty Rating
- arxiv url: http://arxiv.org/abs/2606.05228v1
- Date: Tue, 02 Jun 2026 18:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.260789
- Title: Where Do Large Language Models Fail on Competitive Programming? A Taxonomy of Failures by Algorithm Type and Difficulty Rating
- Title(参考訳): 大規模言語モデルが競合プログラミングに失敗する場所は何か?アルゴリズム型と難解なレーティングによる失敗の分類
- Authors: Ayush Kumar Jha, Shalini Jha,
- Abstract要約: LLM(Large Language Model)は、競合するプログラミングベンチマークの習熟度が向上することを示す。
本稿では,315コーデックス問題のバランスの取れた分類法を用いて,LLM故障パターンの系統的研究を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate increasing proficiency on competitive programming benchmarks, yet technical reports predominantly publish aggregate pass rates, obscuring domain-specific vulnerabilities. We present a systematic empirical study of LLM failure patterns using a balanced taxonomy of 315 Codeforces problems across seven algorithm categories and three difficulty tiers. We evaluate GPT-4o and Claude Sonnet 4.6 under strict execution-based conditions, controlling for temperature (T = 0.2). To isolate the impact of reasoning frameworks on algorithmic correctness, we conduct an ablation study comparing direct zero-shot generation against zero-shot Chain-of-Thought (CoT). Our findings reveal a severe divergence from standard NLP benchmarks: forcing CoT aggressively penalizes GPT-4o, dropping its pass rate from 46.0% to 36.8% and exacerbating a critical weakness in Greedy logic. Conversely, while Claude maintains a higher logical baseline (63.5% under CoT), the expanded text generation severely degrades its markdown instruction adherence, causing its Compile Errors to more than triple (from 9 to 31, a 244% increase). Furthermore, failure-mode analysis indicates that Wrong Answer (WA) is the dominant verdict for both models--accounting for over 90% of GPT-4o's and roughly 70% of Claude's unaccepted solutions. These findings empirically demonstrate that standard prompt engineering techniques fail to bridge the algorithmic reasoning gap in competitive programming environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、競合するプログラミングベンチマークの習熟度が向上することを示しているが、技術的報告は主に集約パスレートを公表し、ドメイン固有の脆弱性を隠蔽している。
本稿では、7つのアルゴリズムカテゴリと3つの難易度にまたがる315 Codeforcesのバランスの取れた分類法を用いて,LLM故障パターンの系統的研究を行った。
我々は厳密な実行条件下でGPT-4oとClaude Sonnet 4.6を評価し,温度(T = 0.2。
推論フレームワークがアルゴリズム的正確性に与える影響を分離するために,ゼロショット連鎖(CoT)に対して直接ゼロショット生成を比較するアブレーション研究を行った。
CoTはGPT-4oを積極的にペナルティ化し、パスレートを46.0%から36.8%に下げ、グレディ論理の重大な弱点を悪化させる。
逆に、Claudeは高い論理ベースライン(CoTでは63.5%)を維持しているが、拡張されたテキスト生成はマークダウン命令の順守を著しく低下させ、Compile Errorsは3倍以上(9対31では244%)になった。
さらに、失敗モード解析は、Wrong Answer (WA) が両方のモデルにおいて支配的な評価であり、GPT-4o の90%以上、Claude の未承認解の約70%を占めていることを示している。
これらの結果は、標準的なプロンプトエンジニアリング技術が、競合するプログラミング環境におけるアルゴリズム的推論ギャップを埋めることに失敗したことを実証的に示している。
関連論文リスト
- Automated Proving of Shannon-Type Entropy Inequalities via Fine-Tuned Language Models and Guided Tree Search [50.16356451328644]
シャノン型エントロピーの不等式を証明することは情報理論の基本的な課題である。
我々は,原子実証のステップを微調整した小規模大規模言語モデルがこのプロセスを自動化することができるか検討する。
GPT-5.5は0ショットプロンプトで1.7%のサンプルを解き、Psitipは33.3%のサンプルを解いた。
論文 参考訳(メタデータ) (2026-06-04T05:43:12Z) - A-ProS: Towards Reliable Autonomous Programming Through Multi-Model Feedback [4.062253229926774]
A-ProSは、ハイブリッドマルチモデルフィードバックフレームワークを通じて競合するプログラミング問題を解決する自律AIエージェントである。
A-ProSはベースラインエージェントループに比べて2倍以上のゲインを達成する。
論文 参考訳(メタデータ) (2026-05-18T08:55:30Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - When the Ruler is Broken: Parsing-Induced Suppression in LLM-Based Security Log Evaluation [0.0]
完全に機能的なモデルが完全に非機能なカテゴリに現れる可能性のある,無音で体系的な評価誤差のクラスを実証する。
SOC-Bench v0は、標準化された13のカテゴリの脅威分類、最小統計パワー要件、ファジィフィールド抽出仕様、および将来のSOC研究における特定の精度の歪みを防ぐための公開スコアリングスクリプトからなるベンチマークフレームワークである。
論文 参考訳(メタデータ) (2026-05-08T06:03:11Z) - On the Role of Reasoning Patterns in the Generalization Discrepancy of Long Chain-of-Thought Supervised Fine-Tuning [63.41902113656453]
長いチェーン・オブ・ソート(CoT)軌道上でのSFT(Supervised Fine-Tuning)は、大きな推論モデルを構築する上で重要なフェーズとなっている。
2つの競合モデルによって生成された2つの検証されたCoT軌道源を用いて比較研究を行う。
textttDeepSeek-R1-0528データ上のSFTは、トレーニング損失を著しく低減するが、一般化性能は著しく低下する。
論文 参考訳(メタデータ) (2026-04-02T07:00:54Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - Code Generation with Small Language Models: A Codeforces-Based Study [1.728619497446087]
大きな言語モデル(LLM)はコード生成の機能を示し、開発者の生産性を高める可能性がある。
しかし、それらの採用は高い計算コストなどによって制限されている。
小型言語モデル(SLM)は軽量な代替案である。
論文 参考訳(メタデータ) (2025-04-09T23:57:44Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Markovian Transformers for Informative Language Modeling [1.172865818448696]
CoT(Chain-of-Thought)推論は、しばしば言語モデルの根底にある決定プロセスを忠実に反映しない。
推論オートエンコーダとして理解可能なマルコフ言語モデルフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-29T17:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。