論文の概要: Using LLMs to Evaluate Architecture Documents: Results from a Digital Marketplace Environment
- arxiv url: http://arxiv.org/abs/2601.19693v1
- Date: Tue, 27 Jan 2026 15:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:35:44.397793
- Title: Using LLMs to Evaluate Architecture Documents: Results from a Digital Marketplace Environment
- Title(参考訳): LLMを使ってアーキテクチャ文書を評価する - ディジタルマーケットプレース環境の成果
- Authors: Frank Elberzhager, Matthias Gerbershagen, Joshua Ginkel,
- Abstract要約: LLMによるアーキテクチャ文書の評価は、ソフトウェアアーキテクトがそのような成果物を改善するのにどう役立つかを検討する。
我々は異なるLCMを用いてアーキテクチャ文書の質を分析し、その結果をソフトウェアアーキテクトの評価と比較した。
このアーキテクチャタスクでLLMを使うことは有望だが、さらなる分析を必要とする不整合を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI plays an increasing role during software engineering activities to make them, e.g., more efficient or provide better quality. However, it is often unclear how much benefit LLMs really provide. We concentrate on software architects and investigated how an LLM-supported evaluation of architecture documents can support software architects to improve such artefacts. In the context of a research project where a digital marketplace is developed and digital solutions should be analyzed, we used different LLMs to analyze the quality of architecture documents and compared the results with evaluations from software architects. We found out that the quality of the artifact has a strong influence on the quality of the LLM, i.e., the better the quality of the architecture document was, the more consistent were the LLM-based evaluation and the human expert evaluation. While using LLMs in this architecture task is promising, our results showed inconsistencies that need further analyses before generalizing them.
- Abstract(参考訳): ジェネレーティブAIは、ソフトウェアエンジニアリング活動において、例えば、より効率的あるいはより良い品質を提供するために、ますます多くの役割を担います。
しかし、LLMが実際にどの程度の利益をもたらすかは、しばしば不明である。
我々は,ソフトウェアアーキテクトに焦点をあて,LLMが支援するアーキテクチャ文書の評価によって,ソフトウェアアーキテクトがそのような成果物を改善する方法について検討した。
デジタルマーケットプレースを開発し,デジタルソリューションを解析する研究プロジェクトでは,アーキテクチャ文書の質を解析するために異なるLCMを使用し,ソフトウェアアーキテクトによる評価と比較した。
その結果, 工芸品の品質がLLMの品質に強い影響があること, すなわち, アーキテクチャ文書の質が向上するほど, LLMに基づく評価と人間の専門家による評価がより一貫性があることがわかった。
このアーキテクチャタスクでLLMを使うことは有望であるが,その一般化に先立ってさらなる分析を必要とする不整合が示された。
関連論文リスト
- LLM-as-a-Judge for Software Engineering: Literature Review, Vision, and the Road Ahead [27.124885915455426]
本稿では,ソフトウェアアーティファクト評価のためのLCM-as-a-Judgeの推進に向けて,コミュニティを支援することを目的とする。
我々はこれらのフレームワークを,2030年までに一貫性のある多面的アーティファクト評価が可能な信頼性,堅牢,スケーラブルなヒューマンサロゲートとして想定する。
論文 参考訳(メタデータ) (2025-10-28T12:44:54Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Supporting architecture evaluation for ATAM scenarios with LLMs [0.6136099525128398]
この研究は、ソフトウェアアーキテクチャコースの学生が提案する品質シナリオを分析するためのLLMツールとしてMS Copilotを研究している。
最初の研究は、LLMが品質シナリオのリスク、感度ポイント、トレードオフ分析に関して、ほとんどのケースにおいて、より正確で正確な結果を生み出すことを明らかにした。
論文 参考訳(メタデータ) (2025-05-30T18:42:12Z) - Software Architecture Meets LLMs: A Systematic Literature Review [4.28281840272851]
本稿では,ソフトウェアアーキテクチャにおける大規模言語モデルの利用について,系統的な文献レビューを行う。
LLMは、様々なソフトウェアアーキテクチャタスクにますます適用されているが、アーキテクチャ設計からソースコードを生成するなど、いくつかの領域は未探索のままである。
論文 参考訳(メタデータ) (2025-05-22T14:00:29Z) - From Code to Courtroom: LLMs as the New Software Judges [29.77858458399232]
大規模言語モデル(LLM)は、コード生成や要約といったソフトウェアエンジニアリングタスクを自動化するために、ますます使われています。
人間の評価は効果的だが、非常にコストと時間を要する。
LLMを自動評価に用いるLLM-as-a-Judgeパラダイムが登場した。
論文 参考訳(メタデータ) (2025-03-04T03:48:23Z) - Assessing LLMs for Front-end Software Architecture Knowledge [0.0]
大規模言語モデル(LLM)は、ソフトウェア開発タスクの自動化において大きな可能性を証明している。
本研究では,VIPER アーキテクチャ内の構造を理解し,再現し,生成する LLM の機能について検討する。
実験の結果、ChatGPT 4 Turbo 2024-04-09 を用いて、LLM は評価や作成といった高次タスクに優れていたが、アーキテクチャの詳細の正確な検索を必要とする低次タスクでは課題に直面していたことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-26T19:33:35Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。