論文の概要: Using LLMs in Generating Design Rationale for Software Architecture Decisions
- arxiv url: http://arxiv.org/abs/2504.20781v1
- Date: Tue, 29 Apr 2025 14:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.918144
- Title: Using LLMs in Generating Design Rationale for Software Architecture Decisions
- Title(参考訳): ソフトウェアアーキテクチャ決定のための設計規則の生成にLLMを使う
- Authors: Xiyu Zhou, Ruiyin Li, Peng Liang, Beiqi Zhang, Mojtaba Shahin, Zengyang Li, Chen Yang,
- Abstract要約: ソフトウェアアーキテクチャ決定のための設計規則(DR:Design Rationale)は、アーキテクチャ選択の基礎となる理由である。
近年のLarge Language Models (LLM) の進歩により、テキスト理解、推論、生成の能力により、アーキテクチャ決定のためのDRの生成とリカバリが可能になる。
- 参考スコア(独自算出の注目度): 6.314112341291189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Design Rationale (DR) for software architecture decisions refers to the reasoning underlying architectural choices, which provides valuable insights into the different phases of the architecting process throughout software development. However, in practice, DR is often inadequately documented due to a lack of motivation and effort from developers. With the recent advancements in Large Language Models (LLMs), their capabilities in text comprehension, reasoning, and generation may enable the generation and recovery of DR for architecture decisions. In this study, we evaluated the performance of LLMs in generating DR for architecture decisions. First, we collected 50 Stack Overflow (SO) posts, 25 GitHub issues, and 25 GitHub discussions related to architecture decisions to construct a dataset of 100 architecture-related problems. Then, we selected five LLMs to generate DR for the architecture decisions with three prompting strategies, including zero-shot, chain of thought (CoT), and LLM-based agents. With the DR provided by human experts as ground truth, the Precision of LLM-generated DR with the three prompting strategies ranges from 0.267 to 0.278, Recall from 0.627 to 0.715, and F1-score from 0.351 to 0.389. Additionally, 64.45% to 69.42% of the arguments of DR not mentioned by human experts are also helpful, 4.12% to 4.87% of the arguments have uncertain correctness, and 1.59% to 3.24% of the arguments are potentially misleading. Based on the results, we further discussed the pros and cons of the three prompting strategies and the strengths and limitations of the DR generated by LLMs.
- Abstract(参考訳): ソフトウェアアーキテクチャ決定のための設計規則(DR:Design Rationale)は、アーキテクチャ選択の基礎となる理由を指し、ソフトウェア開発全体を通してアーキテクチャプロセスの異なるフェーズに関する貴重な洞察を提供する。
しかし実際には、開発者からのモチベーションや努力の欠如のために、DRは不十分に文書化されていることが多い。
LLM(Large Language Models)の最近の進歩により、テキスト理解、推論、生成の能力により、アーキテクチャ決定のためのDRの生成とリカバリが可能になる。
本研究では,アーキテクチャ決定のためのDR生成におけるLCMの性能評価を行った。
まず、50のStack Overflow (SO)ポスト、25のGitHubイシュー、100のアーキテクチャ関連問題のデータセットを構築するためのアーキテクチャ決定に関するGitHubの議論を収集しました。
次に、ゼロショット、思考連鎖(CoT)、LLMベースのエージェントを含む3つのプロンプト戦略を用いて、アーキテクチャ決定のためのDRを生成する5つのLCMを選択した。
人間の専門家によるDRを根拠として、LLM生成DRの精度は0.267から0.278、リコールは0.627から0.715、F1スコアは0.351から0.389である。
加えて、人間の専門家によって言及されていないDRの議論の64.45%から69.42%が有用であり、議論の4.12%から4.87%が不確かで、1.59%から3.24%が誤解を招く可能性がある。
これらの結果から,LLMが生み出す3つの戦略の長所と短所,長所,短所について考察した。
関連論文リスト
- Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models [1.4956870931936515]
RDoLTは大規模言語モデルの推論性能を大幅に向上させる新しいフレームワークである。
RDoLTは、(1)複雑な推論タスクを進歩的複雑性のサブタスクに分解すること、(2)最も有望な推論思考を特定するための高度な選択とスコアリング機構を使用すること、(3)人間の学習を模倣する知識伝達モジュールを統合すること、の3つの主要なイノベーションに基づいて構築されている。
提案手法は,GSM8K,SVAMP,MultiArithm,LastLetterConcatenation,Gaokao2023 Mathなど,複数のベンチマークで評価された。
論文 参考訳(メタデータ) (2025-01-03T02:55:44Z) - Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。
本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。
我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-11-27T18:04:05Z) - DRS: Deep Question Reformulation With Structured Output [114.14122339938697]
大規模言語モデル(LLM)は、解決不可能な質問を検知できるが、これらの質問の修正をユーザーが支援するのに苦労する。
DRS:Deep Question Reformulation with Structured Output, a novel zero-shot method for enhance to LLMs ability to help users in reformulation Question。
DRS は GPT-3.5 の改定精度を 23.03% から 70.42% に改善するとともに,Gemma2-9B などのオープンソースモデルの性能を 26.35% から 56.75% に向上させた。
論文 参考訳(メタデータ) (2024-11-27T02:20:44Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - Program Slicing in the Era of Large Language Models [7.990456190723922]
プログラムスライシングはソフトウェア工学において重要なテクニックであり、開発者は関連するコードの部分を分離することができる。
本研究では,大規模言語モデル(LLM)の静的スライシングおよび動的プログラムスライシングへの応用について検討する。
論文 参考訳(メタデータ) (2024-09-19T00:07:56Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - StructuredRAG: JSON Response Formatting with Large Language Models [0.3141085922386211]
本研究では,大規模言語モデルの応答形式指示に従う際の習熟度を評価するための6つのタスクのベンチマークであるStructuredRAGを紹介する。
我々は4ビット量子化による2つの最先端LCM, Gemini 1.5 Pro と Llama 3 8B のインストラクトを評価した。
Llama 3 8B命令は、しばしばGemini 1.5 Proと競合する。
論文 参考訳(メタデータ) (2024-08-07T19:32:59Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - Can LLMs Generate Architectural Design Decisions? -An Exploratory
Empirical study [10.051928501109]
アーキテクチャ知識管理(AKM)の本質的な成果は、アーキテクチャ決定記録(ADR)である。
彼らの利点にもかかわらず、ADRがソフトウェア開発に採用されるのは、時間的制約や一貫性のない取り込みといった課題のために遅い。
大規模言語モデル(LLM)の最近の進歩は、ADR生成を容易にすることで、この採用ギャップを埋めるのに役立つかもしれない。
論文 参考訳(メタデータ) (2024-03-04T03:56:14Z) - Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。
SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。
自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:13:53Z) - StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving [76.5322280307861]
StrategyLLM は LLM が帰納的推論、特定のタスクインスタンスからの一般的な戦略の導出、帰納的推論を可能にし、これらの一般的な戦略を特定のタスク例に適用し、一般化可能で一貫した数発のプロンプトを構築する。
実験の結果、StrategyLLMは、数学推論(34.2%$rightarrow$38.8%)、コモンセンス推論(70.3%$rightarrow$72.5%)、アルゴリズム推論(73.7%$rightarrow$85.0)を含む、4つの難しいタスクにまたがる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-11-15T09:18:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。