論文の概要: Benchmarking Requirement-to-Architecture Generation with Hybrid Evaluation
- arxiv url: http://arxiv.org/abs/2604.06683v1
- Date: Wed, 08 Apr 2026 04:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.343942
- Title: Benchmarking Requirement-to-Architecture Generation with Hybrid Evaluation
- Title(参考訳): ハイブリッド評価によるベンチマーク要求・アーキテクチャ生成
- Authors: Minxiao Li, Shuying Yan, Li Zhang, Yang Liu, Fang Liu,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェアエンジニアリングタスクの自動化において大きな可能性を証明している。
要件文書からソフトウェアアーキテクチャ設計を生成することは、ソフトウェア開発における重要なステップである。
R2ABenchは、さまざまな現実世界のソフトウェアプロジェクトと、包括的製品要求文書(PRD)と専門家による参照図を組み合わせた、新しいベンチマークである。
- 参考スコア(独自算出の注目度): 8.867061253116367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Large Language Models (LLMs) have demonstrated significant potential in automating software engineering tasks. Generating software architecture designs from requirement documents is a crucial step in software development. However, there is currently a lack of functional datasets tailored for this task. To bridge this gap, we introduce R2ABench (Requirement-To-Architecture Benchmark), a novel benchmark comprising diverse real-world software projects paired with comprehensive Product Requirements Documents (PRDs) and expert-curated PlantUML reference diagrams. Furthermore, we propose a multi-dimensional, hybrid evaluation framework that assesses generated diagrams across three complementary layers: Structural Graph Metrics, Multi-dimensional Scoring, and Architecture Anti-pattern Detection. Using this framework, we conducted a comprehensive empirical study evaluating state-of-the-art models and agentic workflows. Our study shows that LLMs show strong syntactic validity and robust entity extraction but fundamentally struggle with relational reasoning, leading to structurally fragmented architectures. Code-specialized models partially alleviate this limitation, while agent frameworks introduce significant instability rather than consistent improvements. R2ABench provides a robust and standardized foundation for advancing LLM-driven software architecture generation.
- Abstract(参考訳): 近年,Large Language Models (LLMs) は,ソフトウェア工学タスクの自動化に大きな可能性を示している。
要件文書からソフトウェアアーキテクチャ設計を生成することは、ソフトウェア開発における重要なステップである。
しかし、現在このタスクに適した機能データセットが不足している。
このギャップを埋めるために、我々はR2ABench (Requirement-To-Architecture Benchmark)を紹介します。
さらに、構造グラフメトリック、多次元スコーリング、アーキテクチャアンチパターン検出の3つの相補的なレイヤにわたる生成図を評価する多次元ハイブリッド評価フレームワークを提案する。
このフレームワークを用いて、最先端のモデルとエージェントワークフローを評価する総合的な実証的研究を行った。
本研究は,LLMが強い構文的妥当性と頑健な実体抽出を示すが,理論的には関係推論に苦慮し,構造的に断片化されたアーキテクチャに繋がることを示した。
コード特化モデルは、この制限を部分的に緩和する一方、エージェントフレームワークは、一貫した改善よりも大きな不安定をもたらす。
R2ABenchは、LLM駆動のソフトウェアアーキテクチャ生成を進めるための堅牢で標準化された基盤を提供する。
関連論文リスト
- Unified Architecture Metamodel of Information Systems Developed by Generative AI [0.0]
本研究では,中小企業が選択したアーキテクチャフレームワークに基づいたLLM指向アプリケーションのための統一アーキテクチャ構築の課題について検討する。
いくつかの重要なアーキテクチャ図をカバーし、変換のクローズドサイクルをサポートするフレームワーク構造が提案されている。
実験では、アーキテクチャ図の形式で構造化されたアーキテクチャコンテキストを使用する場合、生成されたドキュメントとコードの安定した品質を実証した。
論文 参考訳(メタデータ) (2026-03-31T19:22:15Z) - Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining [66.89012795621349]
大規模言語モデル(LLM)は、複雑なソフトウェア工学に必要な、深く、長期にわたる推論に苦しむことが多い。
本稿では,再構築による理解という,新しいパラダイムを提案する。
マルチエージェントシミュレーションを用いて潜在エージェント軌道を合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-11T09:23:20Z) - A Novel Multi-Agent Architecture to Reduce Hallucinations of Large Language Models in Multi-Step Structural Modeling [14.895933109860342]
本研究では,OpenSeesPyを用いた構造モデリングと解析を自動化する新しいマルチエージェントアーキテクチャを提案する。
提案手法は10回繰り返し試行錯誤した20フレーム問題をベンチマークで評価し、18件で100%,残りの2件で90%の精度で評価した。
論文 参考訳(メタデータ) (2026-03-08T16:57:35Z) - Architecture-Aware Multi-Design Generation for Repository-Level Feature Addition [53.50448142467294]
RAIMは、リポジトリレベルの機能追加のための、多設計およびアーキテクチャ対応のフレームワークである。
複数の多様な実装設計を生成することで、線形パッチから切り離される。
NoCode-bench Verifiedデータセットの実験では、RAIMが新しい最先端のパフォーマンスを確立することが示されている。
論文 参考訳(メタデータ) (2026-03-02T12:50:40Z) - ArchAgent: Scalable Legacy Software Architecture Recovery with LLMs [44.137226823695066]
ArchAgentはスケーラブルなエージェントベースのフレームワークで、静的解析、適応コードセグメンテーション、LLMによる合成を組み合わせている。
クロスリポジトリから、マルチビューでビジネスに整合したアーキテクチャを再構築する。
ArchAgentは、コンテキストプルーニングによるスケーラブルなダイアグラム生成を導入し、クロスリポジトリデータを統合して、ビジネスクリティカルなモジュールを識別する。
論文 参考訳(メタデータ) (2026-01-19T12:39:05Z) - Benchmarking and Studying the LLM-based Agent System in End-to-End Software Development [33.01897134024342]
エンドツーエンドソフトウェア開発のためのLLMベースの自律エージェントの開発は、ソフトウェア工学における重要なパラダイムシフトである。
この作業はコミュニティに、より現実的なベンチマーク、包括的な評価フレームワーク、そしてソフトウェア開発エージェントの現在の能力とコア課題に対する重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-11-06T05:10:04Z) - Towards Realistic Project-Level Code Generation via Multi-Agent Collaboration and Semantic Architecture Modeling [7.753074942497876]
CodeProjectEvalは、12.7ファイルと2,388.6行のタスクを持つ18の現実世界リポジトリから構築されたプロジェクトレベルのコード生成データセットである。
プロジェクトをアーキテクチャ設計、スケルトン生成、コードフィリングステージに分解するマルチエージェントフレームワークであるProjectGenを提案する。
実験によると、ProjectGenは、52/124のテストケースを小さなプロジェクトレベルのコード生成データセットDevBenchに渡すことで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-05T12:12:35Z) - Serving Deep Learning Model in Relational Databases [70.53282490832189]
リレーショナルデータ上での深層学習(DL)モデルの実現は、様々な商業分野や科学分野において重要な要件となっている。
最先端のDL中心アーキテクチャは、DL計算を専用のDLフレームワークにオフロードします。
UDF中心アーキテクチャの可能性は、リレーショナルデータベース管理システム(RDBMS)内の1つ以上のテンソル計算をユーザ定義関数(UDF)にカプセル化する。
論文 参考訳(メタデータ) (2023-10-07T06:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。