論文の概要: Can Language Models Go Beyond Coding? Assessing the Capability of Language Models to Build Real-World Systems
- arxiv url: http://arxiv.org/abs/2511.00780v1
- Date: Sun, 02 Nov 2025 03:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.930669
- Title: Can Language Models Go Beyond Coding? Assessing the Capability of Language Models to Build Real-World Systems
- Title(参考訳): 言語モデルはコーディングを超えることができるか? 実世界のシステムを構築するための言語モデルの能力を評価する
- Authors: Chenyu Zhao, Shenglin Zhang, Zeshun Huang, Weilin Jin, Yongqian Sun, Dan Pei, Chaoyun Zhang, Qingwei Lin, Chetan Bansal, Saravan Rajmohan, Minghua Ma,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学における潜在的な可能性を示している。
命令セットアーキテクチャ(ISA)間のマイグレーション中にソフトウェアを修復する能力を評価するベンチマークは少ない。
- 参考スコア(独自算出の注目度): 44.748487030119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown growing potential in software engineering, yet few benchmarks evaluate their ability to repair software during migration across instruction set architectures (ISAs). Cross-ISA migration, such as between x86_64 and aarch64, requires handling complex dependencies, heterogeneous toolchains, and long build logs while ensuring executable verification. To address this challenge, we present Build-bench, an end-to-end benchmark that systematically evaluates the capability of LLMs to repair build failures in cross-ISA settings. Build-bench collects 268 real-world failed packages and integrates auxiliary tools including Structure Extraction, File Content Extraction, Content Modification, and Build Verification to support autonomous, tool-augmented reasoning. The repair process operates in an iterative loop where, upon failure, the model receives updated build logs and previous repair outcomes to refine subsequent attempts. Through a comparative evaluation of six representative LLMs, Build-bench reveals that current models achieve a maximum build success rate of 63% and tool usage patterns differ significantly across models. By coupling real build environments with verifiable outcomes, Build-bench establishes the first architecture-aware benchmark for studying LLM-based software build and repair.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア工学における潜在的な可能性を示しているが、命令セットアーキテクチャ(ISA)間のマイグレーション中にソフトウェアを修復する能力を評価するベンチマークは少ない。
x86_64とaarch64の間のクロスISAマイグレーションでは、実行可能検証を確保しながら、複雑な依存関係、異種ツールチェーン、長いビルドログを処理する必要がある。
この課題に対処するために、私たちは、ビルドエラーをクロスISA設定で修復するLLMの能力を体系的に評価するエンドツーエンドのベンチマークであるBuild-benchを紹介します。
Build-benchは268の実際の失敗パッケージを収集し、Structure extract、File Content extract、Content Modification、Build Verificationなどの補助ツールを統合して、自律的でツール拡張された推論をサポートする。
修復プロセスは反復ループで動作し、失敗すると、モデルが更新されたビルドログと以前の修復結果を受け取り、その後の試行を洗練する。
6つの代表的なLCMの比較評価を通じて、Build-benchは、現在のモデルが最大ビルド成功率63%に達し、ツールの使用パターンがモデルによって大きく異なることを明らかにした。
実際のビルド環境と検証可能な結果とを結合することにより、Build-benchは、LLMベースのソフトウェアビルドと修復を研究するための最初のアーキテクチャ対応ベンチマークを確立します。
関連論文リスト
- BuildBench: Benchmarking LLM Agents on Compiling Real-World Open-Source Software [39.43177863341685]
既存のメソッドは手動でキュレートされたルールに依存しており、カスタマイズされた設定や環境設定を必要とするOSSに適応できない。
近年、Large Language Models (LLMs) を用いた試みでは、高度に評価されたOSSのサブセットを選択的に評価した。
より困難で現実的なベンチマークであるBUILD-BENCHを提案する。
論文 参考訳(メタデータ) (2025-09-27T03:02:46Z) - Evaluating the Limitations of Local LLMs in Solving Complex Programming Challenges [0.31498833540989407]
本研究では,オープンソースのローカルホスト型大規模言語モデル(LLM)による複雑なプログラミングタスクの処理性能について検討する。
AI駆動のコード生成評価(FACE)のためのオリジナルのフレームワークをベースとして、著者らはパイプラインを完全にオフラインで動作するように改造した。
その結果、パス@1の精度は局所モデルでは控えめであり、最高のモデルはプロプライエタリモデルの受け入れ率の約半分であることがわかった。
論文 参考訳(メタデータ) (2025-09-18T14:13:30Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - APE-Bench I: Towards File-level Automated Proof Engineering of Formal Math Libraries [5.227446378450704]
APE-Bench Iは、Mathlib4の実際のコミット履歴から構築された最初の現実的なベンチマークである。
Eleansticはスケーラブルな並列検証インフラストラクチャで、Mathlibの複数バージョンにわたる検証に最適化されている。
論文 参考訳(メタデータ) (2025-04-27T05:04:02Z) - Large Language Model Critics for Execution-Free Evaluation of Code Changes [5.1973075342632535]
大規模言語モデル(LLM)は、ソフトウェアエンジニアリングタスクを自動化するための有望な方法を提供する。
ビルド状況や時折のログ分析などを評価するための既存のメトリクスは、変更の質を評価するのに必要な情報を提供するには不十分で制限されています。
本研究では,LLMをベースとした批判者に対して,コード変更の実行可能性に対する厳密で厳密な中間レベル/ステップレベルの,実行不要な評価プロキシを導出する設計を行った。
論文 参考訳(メタデータ) (2025-01-28T02:38:56Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。