論文の概要: Evaluating Large Language Models for Detecting Architectural Decision Violations
- arxiv url: http://arxiv.org/abs/2602.07609v1
- Date: Sat, 07 Feb 2026 16:36:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.721628
- Title: Evaluating Large Language Models for Detecting Architectural Decision Violations
- Title(参考訳): アーキテクチャ決定違反検出のための大規模言語モデルの評価
- Authors: Ruoyu Su, Alexander Bakhtin, Noman Ahmad, Matteo Esposito, Valentina Lenarduzzi, Davide Taibi,
- Abstract要約: アーキテクチャ決定レコード(ADR)は、ソフトウェアアーキテクチャの品質維持において中心的な役割を果たす。
大規模言語モデル(LLM)の最近の進歩は、大規模アーキテクチャ推論を自動化する新しい可能性を開く。
我々は,LLMがオープンソースシステムにおける決定違反を効果的に識別する方法について,その合意,正確性,本質的な制約を検証することによって検討した。
- 参考スコア(独自算出の注目度): 39.480626944948376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Architectural Decision Records (ADRs) play a central role in maintaining software architecture quality, yet many decision violations go unnoticed because projects lack both systematic documentation and automated detection mechanisms. Recent advances in Large Language Models (LLMs) open up new possibilities for automating architectural reasoning at scale. We investigated how effectively LLMs can identify decision violations in open-source systems by examining their agreement, accuracy, and inherent limitations. Our study analyzed 980 ADRs across 109 GitHub repositories using a multi-model pipeline in which one LLM primary screens potential decision violations, and three additional LLMs independently validate the reasoning. We assessed agreement, accuracy, precision, and recall, and complemented the quantitative findings with expert evaluation. The models achieved substantial agreement and strong accuracy for explicit, code-inferable decisions. Accuracy falls short for implicit or deployment-oriented decisions that depend on deployment configuration or organizational knowledge. Therefore, LLMs can meaningfully support validation of architectural decision compliance; however, they are not yet replacing human expertise for decisions not focused on code.
- Abstract(参考訳): アーキテクチャ決定レコード(ADR)は、ソフトウェアアーキテクチャの品質を維持する上で中心的な役割を担います。
大規模言語モデル(LLM)の最近の進歩は、大規模アーキテクチャ推論を自動化する新しい可能性を開く。
我々は,LLMがオープンソースシステムにおける決定違反を効果的に識別する方法について,その合意,正確性,本質的な制約を検証することによって検討した。
調査では109のGitHubリポジトリにわたる980のADRをマルチモデルパイプラインを用いて分析した。
我々は,合意,精度,精度,リコールを評価し,定量的な結果と専門家による評価を補完した。
モデルは明確なコード推論可能な決定に対して、相当な合意と強い精度を達成した。
デプロイメントの構成や組織的知識に依存する暗黙的あるいはデプロイメント指向の意思決定では、正確さは不足する。
したがって、LCMはアーキテクチャ上の決定コンプライアンスの検証を有意義にサポートできるが、コードに焦点を絞らない決定に対して、人間の専門知識を置き換えるものではない。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Evaluating LLM Understanding via Structured Tabular Decision Simulations [19.626373589153108]
大規模言語モデル(LLM)は、しばしば印象的な予測精度を達成するが、正確性だけでは真に理解できない。
本稿では,専門家的な意思決定設定のスイートであるStructured Tabular Decision Simulations (STaDS)を紹介する。
我々は15の異なる意思決定設定で9つのフロンティアLSMを分析した。
論文 参考訳(メタデータ) (2025-11-07T09:42:39Z) - Integrating Expert Knowledge into Logical Programs via LLMs [3.637365301757111]
ExKLoPは、大規模言語モデルが専門家の知識を論理的推論システムに統合する方法を評価するために設計されたフレームワークである。
この能力は特にエンジニアリングにおいて有用であり、製造業者が推奨する運用範囲などの専門家の知識を、自動化された監視システムに直接組み込むことができる。
論文 参考訳(メタデータ) (2025-02-17T19:18:23Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - DeLLMa: Decision Making Under Uncertainty with Large Language Models [31.77731889916652]
DeLLMaは不確実な環境での意思決定の精度を高めるために設計されたフレームワークである。
DeLLMaは主要な言語モデルの意思決定性能を継続的に向上し、競合する手法に比べて最大40%の精度向上を達成できることを示す。
論文 参考訳(メタデータ) (2024-02-04T08:11:45Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。