論文の概要: ArchBench: Benchmarking Generative-AI for Software Architecture Tasks
- arxiv url: http://arxiv.org/abs/2603.17833v1
- Date: Wed, 18 Mar 2026 15:26:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.790916
- Title: ArchBench: Benchmarking Generative-AI for Software Architecture Tasks
- Title(参考訳): ArchBench: ソフトウェアアーキテクチャタスクのための生成AIのベンチマーク
- Authors: Bassam Adnan, Aviral Gupta, Sreemaee Akshathala, Karthik Vaidhyanathan,
- Abstract要約: ArchBenchは、ソフトウェアアーキテクチャタスクで大規模言語モデルをベンチマークするための最初の統一プラットフォームである。
データセットのダウンロード、トラジェクトリロギングによる推論、自動評価のための標準化されたパイプラインを備えたコマンドラインツールを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks for large language models (LLMs) have progressed from snippet-level function generation to repository-level issue resolution, yet they overwhelmingly target implementation correctness. Software architecture tasks remain under-specified and difficult to compare across models, despite their central role in maintaining and evolving complex systems. We present ArchBench, the first unified platform for benchmarking LLM capabilities on software architecture tasks. ArchBench provides a command-line tool with a standardized pipeline for dataset download, inference with trajectory logging, and automated evaluation, alongside a public web interface with an interactive leaderboard. The platform is built around a plugin architecture where each task is a self-contained module, making it straightforward for the community to contribute new architectural tasks and evaluation results. We use the term LLMs broadly to encompass generative AI (GenAI) solutions for software engineering, including both standalone models and LLM-based coding agents equipped with tools. Both the CLI tool and the web platform are openly available to support reproducible research and community-driven growth of architectural benchmarking.
- Abstract(参考訳): 大規模言語モデル(LLM)のベンチマークは、スニペットレベルの関数生成からリポジトリレベルのイシュー解決まで進歩しているが、実装の正しさを圧倒的にターゲットとしている。
ソフトウェアアーキテクチャのタスクは、複雑なシステムの保守と進化において中心的な役割を担っているにもかかわらず、モデル間の比較が不明確で難しいままである。
ソフトウェアアーキテクチャタスク上でLLM機能をベンチマークする最初の統一プラットフォームであるArchBenchを紹介します。
ArchBenchは、データセットのダウンロード、トラジェクトリロギングによる推論、自動評価のための標準化されたパイプラインを備えたコマンドラインツールと、インタラクティブなリーダボードを備えたパブリックWebインターフェースを提供する。
プラットフォームは、各タスクが自己完結したモジュールであるプラグインアーキテクチャを中心に構築されており、コミュニティが新しいアーキテクチャタスクや評価結果を簡単に提供できる。
LLMという用語は、スタンドアロンモデルとツールを備えたLLMベースのコーディングエージェントの両方を含む、ソフトウェアエンジニアリングのための生成AI(GenAI)ソリューションを幅広く使用しています。
CLIツールとWebプラットフォームの両方が公開されており、再現可能なリサーチと、アーキテクチャベンチマークのコミュニティ主導の成長をサポートする。
関連論文リスト
- ArchAgent: Scalable Legacy Software Architecture Recovery with LLMs [44.137226823695066]
ArchAgentはスケーラブルなエージェントベースのフレームワークで、静的解析、適応コードセグメンテーション、LLMによる合成を組み合わせている。
クロスリポジトリから、マルチビューでビジネスに整合したアーキテクチャを再構築する。
ArchAgentは、コンテキストプルーニングによるスケーラブルなダイアグラム生成を導入し、クロスリポジトリデータを統合して、ビジネスクリティカルなモジュールを識別する。
論文 参考訳(メタデータ) (2026-01-19T12:39:05Z) - BuildBench: Benchmarking LLM Agents on Compiling Real-World Open-Source Software [39.43177863341685]
既存のメソッドは手動でキュレートされたルールに依存しており、カスタマイズされた設定や環境設定を必要とするOSSに適応できない。
近年、Large Language Models (LLMs) を用いた試みでは、高度に評価されたOSSのサブセットを選択的に評価した。
より困難で現実的なベンチマークであるBUILD-BENCHを提案する。
論文 参考訳(メタデータ) (2025-09-27T03:02:46Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - LLMs for Generation of Architectural Components: An Exploratory Empirical Study in the Serverless World [0.0]
本稿では,関数・アズ・ア・サービス(F)のためのアーキテクチャコンポーネントを生成するための大規模言語モデルの有用性について検討する。
アーキテクチャコンポーネントの小さなサイズは、このアーキテクチャスタイルを現在のLLMを使って生成可能にする。
我々は、リポジトリに存在する既存のテストを通じて正確性を評価し、ソフトウェア工学(SE)と自然言語処理(NLP)ドメインのメトリクスを使用する。
論文 参考訳(メタデータ) (2025-02-04T18:06:04Z) - Demystifying AI Platform Design for Distributed Inference of Next-Generation LLM models [8.02264001053969]
大きな言語モデル(LLM)は、広範囲のアプリケーションで顕著なパフォーマンスを示しており、しばしば人間の専門家よりも優れています。
LLMの継続的なイノベーションが最適化に役立ち、モデルアーキテクチャはブレークネックスピードで進化しているため、サービスレベルオブジェクト(SLO)を満たすためのハードウェア要件は、オープンな研究課題のままである。
我々は、多様なLLMモデルアーキテクチャとAIプラットフォーム設計パラメータの関係を効率的にナビゲートする分析ツールGenZを提案する。
論文 参考訳(メタデータ) (2024-06-03T18:00:50Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。