論文の概要: Evaluating the Limitations of Local LLMs in Solving Complex Programming Challenges
- arxiv url: http://arxiv.org/abs/2509.15283v1
- Date: Thu, 18 Sep 2025 14:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.846111
- Title: Evaluating the Limitations of Local LLMs in Solving Complex Programming Challenges
- Title(参考訳): 複素計画問題の解法における局所LLMの限界評価
- Authors: Kadin Matotek, Heather Cassel, Md Amiruzzaman, Linh B. Ngo,
- Abstract要約: 本研究では,オープンソースのローカルホスト型大規模言語モデル(LLM)による複雑なプログラミングタスクの処理性能について検討する。
AI駆動のコード生成評価(FACE)のためのオリジナルのフレームワークをベースとして、著者らはパイプラインを完全にオフラインで動作するように改造した。
その結果、パス@1の精度は局所モデルでは控えめであり、最高のモデルはプロプライエタリモデルの受け入れ率の約半分であることがわかった。
- 参考スコア(独自算出の注目度): 0.31498833540989407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study examines the performance of today's open-source, locally hosted large-language models (LLMs) in handling complex competitive programming tasks with extended problem descriptions and contexts. Building on the original Framework for AI-driven Code Generation Evaluation (FACE), the authors retrofit the pipeline to work entirely offline through the Ollama runtime, collapsing FACE's sprawling per-problem directory tree into a handful of consolidated JSON files, and adding robust checkpointing so multi-day runs can resume after failures. The enhanced framework generates, submits, and records solutions for the full Kattis corpus of 3,589 problems across eight code-oriented models ranging from 6.7-9 billion parameters. The submission results show that the overall pass@1 accuracy is modest for the local models, with the best models performing at approximately half the acceptance rate of the proprietary models, Gemini 1.5 and ChatGPT-4. These findings expose a persistent gap between private, cost-controlled LLM deployments and state-of-the-art proprietary services, yet also highlight the rapid progress of open models and the practical benefits of an evaluation workflow that organizations can replicate on in-house hardware.
- Abstract(参考訳): 本研究では,現在オープンソースでローカルにホストされている大規模言語モデル (LLM) が,複雑な競合プログラミングタスクを拡張問題記述やコンテキストで処理する際の性能について検討する。
AI駆動のコード生成評価フレームワーク(FACE)をベースとして、Ollamaランタイムを通じて完全にオフラインで動作するようにパイプラインを再構成し、FACEのスプロールする1プロブレムディレクトリツリーをいくつかの統合JSONファイルに分解し、複数日の実行が障害後に再開できるように堅牢なチェックポイントを追加する。
拡張されたフレームワークは、6.7-9億のパラメータから8つのコード指向モデルにまたがる3,589の完全なKattisコーパスのソリューションを生成し、提出し、記録する。
その結果,ローカルモデルではパス@1の精度が低く,プロプライエタリモデルであるGemini 1.5とChatGPT-4の約半分の受け入れ率で最高のモデルが実行されることがわかった。
これらの調査結果は、プライベートでコスト管理のLLMデプロイメントと最先端のプロプライエタリなサービスの間には、永続的なギャップが浮かび上がっていますが、オープンモデルの急速な進歩と、組織が社内ハードウェアで複製可能な評価ワークフローの実践的メリットも浮かび上がっています。
関連論文リスト
- MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes [33.80591142965565]
CODE2BENCHは、実世界のGitHubリポジトリから、堅牢で汚染に強いベンチマークを動的に構築するためのパイプラインである。
特に、CODE2BENCHは、(1) トレーニングデータの汚染を最小限に抑えるために、最近のコードの周期的取り込みによって達成される自動ダイナミズム、(2) 依存レベルの制御されたベンチマークインスタンスへの関数の構造化可能なスコープグラフベースの依存性分析、(3) 厳密なテストスイートの自動合成のためのプロパティベーステスト(PBT)の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-08-10T05:06:36Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Enterprise Large Language Model Evaluation Benchmark [3.8601502919298016]
大規模言語モデル(LLM)は、AI駆動のツール間の生産性向上を約束している。
ブルームの分類を基盤とした14タスクのフレームワークを提案し,企業環境におけるLCM機能の評価を行った。
論文 参考訳(メタデータ) (2025-06-25T09:34:25Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language
Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。
長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。
本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。