論文の概要: A Benchmark for Language Models in Real-World System Building
- arxiv url: http://arxiv.org/abs/2601.12927v1
- Date: Mon, 19 Jan 2026 10:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.862963
- Title: A Benchmark for Language Models in Real-World System Building
- Title(参考訳): 実世界のシステム構築における言語モデルのベンチマーク
- Authors: Weilin Jin, Chenyu Zhao, Zeshun Huang, Chaoyun Zhang, Qingwei Lin, Chetan Bansal, Saravan Rajmohan, Shenglin Zhang, Yongqian Sun, Dan Pei, Yifan Wu, Tong Jia, Ying Li, Zhonghai Wu, Minghua Ma,
- Abstract要約: クロスISAソフトウェアパッケージの修復は、ソフトウェアデプロイメントの信頼性と現代のオペレーティングシステムの安定性を保証するための重要なタスクである。
多様なアーキテクチャや言語にまたがるソフトウェアパッケージのビルド修復のために設計された新しいベンチマークを導入する。
ベンチマークで6つの最先端LCMを評価し,その結果,ISA間のソフトウェアパッケージの修復は困難であり,さらなる進歩が必要であることが示された。
- 参考スコア(独自算出の注目度): 56.549267258789904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: During migration across instruction set architectures (ISAs), software package build repair is a critical task for ensuring the reliability of software deployment and the stability of modern operating systems. While Large Language Models (LLMs) have shown promise in tackling this challenge, prior work has primarily focused on single instruction set architecture (ISA) and homogeneous programming languages. To address this limitation, we introduce a new benchmark designed for software package build repair across diverse architectures and languages. Comprising 268 real-world software package build failures, the benchmark provides a standardized evaluation pipeline. We evaluate six state-of-the-art LLMs on the benchmark, and the results show that cross-ISA software package repair remains difficult and requires further advances. By systematically exposing this challenge, the benchmark establishes a foundation for advancing future methods aimed at improving software portability and bridging architectural gaps.
- Abstract(参考訳): 命令セットアーキテクチャ(ISA)間のマイグレーションの間、ソフトウェアパッケージのビルド修復は、ソフトウェアデプロイメントの信頼性と現代のオペレーティングシステムの安定性を保証するための重要なタスクである。
LLM(Large Language Models)はこの問題に対処する上で有望であることを示しているが、以前の研究は主に単一命令セットアーキテクチャ(ISA)と同種プログラミング言語に焦点を当てていた。
この制限に対処するため、さまざまなアーキテクチャや言語にまたがるソフトウェアパッケージのビルド修復のために設計された新しいベンチマークを導入する。
268の現実世界のソフトウェアパッケージビルド障害を補完するベンチマークは、標準化された評価パイプラインを提供する。
ベンチマークで6つの最先端LCMを評価し,その結果,ISA間のソフトウェアパッケージの修復は困難であり,さらなる進歩が必要であることが示された。
この課題を体系的に公開することにより、このベンチマークは、ソフトウェアポータビリティを改善し、アーキテクチャのギャップを埋めることを目的とした、将来の方法を進めるための基盤を確立する。
関連論文リスト
- Asm2SrcEval: Evaluating Large Language Models for Assembly-to-Source Code Translation [4.45354703148321]
アセンブリ・トゥ・ソースのコード翻訳はリバースエンジニアリング、サイバーセキュリティ、ソフトウェアメンテナンスにおいて重要なタスクである。
本稿では,アセンブリ・トゥ・ソース・トランスフォーメーションにおける5つの最先端大規模言語モデルの包括的評価について述べる。
論文 参考訳(メタデータ) (2025-11-28T12:40:30Z) - SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。
SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。
SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文 参考訳(メタデータ) (2025-11-07T18:01:32Z) - Can Language Models Go Beyond Coding? Assessing the Capability of Language Models to Build Real-World Systems [44.748487030119]
大規模言語モデル(LLM)は、ソフトウェア工学における潜在的な可能性を示している。
命令セットアーキテクチャ(ISA)間のマイグレーション中にソフトウェアを修復する能力を評価するベンチマークは少ない。
論文 参考訳(メタデータ) (2025-11-02T03:23:07Z) - BuildBench: Benchmarking LLM Agents on Compiling Real-World Open-Source Software [39.43177863341685]
既存のメソッドは手動でキュレートされたルールに依存しており、カスタマイズされた設定や環境設定を必要とするOSSに適応できない。
近年、Large Language Models (LLMs) を用いた試みでは、高度に評価されたOSSのサブセットを選択的に評価した。
より困難で現実的なベンチマークであるBUILD-BENCHを提案する。
論文 参考訳(メタデータ) (2025-09-27T03:02:46Z) - Guaranteed Guess: A Language Modeling Approach for CISC-to-RISC Transpilation with Testing Guarantees [0.03994567502796063]
GG(Guaranteed Guess)は、事前学習された大規模言語モデルの翻訳能力と、確立されたソフトウェアテスト構造の厳密さを組み合わせた、ISA中心のトランスパイレーションパイプラインである。
提案手法は,あるISAから別のISAへのLSMを用いた候補翻訳を生成し,ソフトウェアテストフレームワークにそのような翻訳を組み込んで,翻訳の量的信頼性を構築する。
我々は、2つの多様なデータセットに対するGGアプローチを評価し、ユニットテストに高いコードカバレッジ(>98%)を強制し、HumanEvalプログラムで99%、BringupBenchプログラムで49%の関数的/意味的正当性を達成した。
論文 参考訳(メタデータ) (2025-06-17T15:06:54Z) - BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models [50.17907898478795]
本稿では,バイナリ解析タスクにおける大規模言語モデルの性能評価のためのベンチマークであるBinMetricを紹介する。
BinMetricは6つの実用的なバイナリ分析タスクにわたる20の実際のオープンソースプロジェクトから得られた1000の質問で構成されている。
本ベンチマークの実証実験では, 各種LLMのバイナリ解析能力について検討し, その強度と限界を明らかにした。
論文 参考訳(メタデータ) (2025-05-12T08:54:07Z) - Towards a Probabilistic Framework for Analyzing and Improving LLM-Enabled Software [0.0]
大規模言語モデル(LLM)対応システムは、ソフトウェア工学において重要な課題である。
本稿では,これらのシステムを体系的に解析し,改善するための確率的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-10T22:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。