論文の概要: Supporting architecture evaluation for ATAM scenarios with LLMs
- arxiv url: http://arxiv.org/abs/2506.00150v1
- Date: Fri, 30 May 2025 18:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.394031
- Title: Supporting architecture evaluation for ATAM scenarios with LLMs
- Title(参考訳): LLMを用いたATAMシナリオのアーキテクチャ評価支援
- Authors: Rafael Capilla, J. Andrés Díaz-Pace, Yamid Ramírez, Jennifer Pérez, Vanessa Rodríguez-Horcajo,
- Abstract要約: この研究は、ソフトウェアアーキテクチャコースの学生が提案する品質シナリオを分析するためのLLMツールとしてMS Copilotを研究している。
最初の研究は、LLMが品質シナリオのリスク、感度ポイント、トレードオフ分析に関して、ほとんどのケースにおいて、より正確で正確な結果を生み出すことを明らかにした。
- 参考スコア(独自算出の注目度): 0.6136099525128398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Architecture evaluation methods have long been used to evaluate software designs. Several evaluation methods have been proposed and used to analyze tradeoffs between different quality attributes. Having competing qualities leads to conflicts for selecting which quality-attribute scenarios are the most suitable ones that an architecture should tackle and for prioritizing the scenarios required by the stakeholders. In this context, architecture evaluation is carried out manually, often involving long brainstorming sessions to decide which are the most adequate quality scenarios. To reduce this effort and make the assessment and selection of scenarios more efficient, we suggest the usage of LLMs to partially automate evaluation activities. As a first step to validate this hypothesis, this work studies MS Copilot as an LLM tool to analyze quality scenarios suggested by students in a software architecture course and compares the students' results with the assessment provided by the LLM. Our initial study reveals that the LLM produces in most cases better and more accurate results regarding the risks, sensitivity points and tradeoff analysis of the quality scenarios. Overall, the use of generative AI has the potential to partially automate and support the architecture evaluation tasks, improving the human decision-making process.
- Abstract(参考訳): アーキテクチャ評価手法は、長い間ソフトウェア設計の評価に使われてきた。
異なる品質特性間のトレードオフを分析するために,いくつかの評価手法が提案されている。
競合する品質を持つことは、どの品質貢献シナリオがアーキテクチャが取り組まなければならない最も適したシナリオであるかを選択し、ステークホルダーが要求するシナリオを優先順位付けするための競合につながる。
この文脈では、アーキテクチャ評価は手動で行われ、多くの場合、最も適切な品質シナリオを決定するために、長いブレインストーミングセッションを含む。
この労力を削減し、シナリオの評価と選択をより効率的にするため、LLMを用いて部分的に評価活動を自動化することを提案する。
本研究は,この仮説を検証するための第一歩として,ソフトウェアアーキテクチャコースの学生が提案する品質シナリオをLLMツールとしてMS Copilotを用いて解析し,LLMによる評価結果と比較する。
最初の研究は、LLMが品質シナリオのリスク、感度ポイント、トレードオフ分析に関して、ほとんどのケースにおいて、より正確で正確な結果を生み出すことを明らかにした。
全体として、生成AIの使用は、アーキテクチャ評価タスクを部分的に自動化し、サポートし、人間の意思決定プロセスを改善する可能性がある。
関連論文リスト
- LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - PanguIR Technical Report for NTCIR-18 AEOLLM Task [12.061652026366591]
大規模言語モデル(LLM)はますます重要で、評価が難しい。
手作業の評価は包括的ではあるが、コストが高くリソース集約的であることが多い。
自動評価はスケーラビリティを提供するが、評価基準の制限によって制約される。
論文 参考訳(メタデータ) (2025-03-04T07:40:02Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。
SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。
我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文 参考訳(メタデータ) (2025-01-26T16:45:09Z) - CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling [27.86204841898399]
大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。
本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。
我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain
Conversations with Large Language Models [28.441725610692714]
大規模言語モデル(LLM)を用いたオープンドメイン会話のための多次元自動評価手法を提案する。
単一のモデルコールにおける会話品質の多次元を網羅する統合評価スキーマを利用する単一プロンプトベースの評価手法を設計する。
各種ベンチマークデータセットを用いたLCM-Evalの性能評価を行い,その有効性,効率,適応性について,最先端評価法と比較した。
論文 参考訳(メタデータ) (2023-05-23T05:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。