論文の概要: Reliability of Large Language Models for Design Synthesis: An Empirical Study of Variance, Prompt Sensitivity, and Method Scaffolding
- arxiv url: http://arxiv.org/abs/2604.00851v1
- Date: Wed, 01 Apr 2026 13:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.994186
- Title: Reliability of Large Language Models for Design Synthesis: An Empirical Study of Variance, Prompt Sensitivity, and Method Scaffolding
- Title(参考訳): デザイン合成のための大規模言語モデルの信頼性:分散性, プロンプト感度, メソッド共有に関する実証的研究
- Authors: Rabia Iftikhar, Andreas Rausch,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェアエンジニアリングタスクの自動化にますます適用されています。
本研究では,LLMがダイアグラム変換を超えて設計合成を行うことができるかどうかを検討する。
- 参考スコア(独自算出の注目度): 2.1843439591862333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly applied to automate software engineering tasks, including the generation of UML class diagrams from natural language descriptions. While prior work demonstrates that LLMs can produce syntactically valid diagrams, syntactic correctness alone does not guarantee meaningful design. This study investigates whether LLMs can move beyond diagram translation to perform design synthesis, and how reliably they maintain design-oriented reasoning under variation. We introduce a preference-based few-shot prompting approach that biases LLM outputs toward designs satisfying object-oriented principles and pattern-consistent structures. Two design-intent benchmarks, each with three domain-only, paraphrased prompts and 10 repeated runs, are used to evaluate three LLMs (ChatGPT 4o-mini, Claude 3.5 Sonnet, Gemini 2.5 Flash) across three modeling strategies: standard prompting, rule-injection prompting, and preference-based prompting, totaling 540 experiments (i.e. 2x3x10x3x3). Results indicate that while preference-based alignment improves adherence to design intent it does not eliminate non-determinism, and model-level behavior strongly influences design reliability. These findings highlight that achieving dependable LLM-assisted software design requires not only effective prompting but also careful consideration of model behavior and robustness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語記述からUMLクラス図を生成するなど、ソフトウェアエンジニアリングタスクの自動化にますます適用されています。
以前の研究は、LLMが構文的に有効な図を作成できることを示したが、構文的正しさだけでは意味のある設計を保証していない。
本研究は,LLMが図形翻訳を超えて設計合成を行うことができるか,設計指向の推論を変動下でいかに確実に維持できるかを考察する。
本稿では,LLMの出力をオブジェクト指向の原則やパターン整合構造を満たす設計に偏りを与える,嗜好に基づく複数ショットプロンプト手法を提案する。
ドメインのみの3つのプロンプトと10回の繰り返し実行を持つ2つの設計意図のベンチマークは、3つのモデリング戦略(標準プロンプト、ルールインジェクションプロンプト、優先度ベースのプロンプト、合計540の実験(2x3x10x3x3))で3つのLSM(ChatGPT 4o-mini、Claude 3.5 Sonnet、Gemini 2.5 Flash)を評価するために使用される。
その結果、好みに基づくアライメントは設計意図の適合性を改善するが、非決定性は排除せず、モデルレベルの振る舞いは設計の信頼性に強く影響を及ぼすことが示された。
これらの結果は、信頼性の高いLCM支援ソフトウェア設計を実現するには、効果的なプロンプトだけでなく、モデルの振る舞いやロバスト性についても慎重に検討する必要があることを示唆している。
関連論文リスト
- Class Model Generation from Requirements using Large Language Models [5.685497917524985]
大規模言語モデル(LLM)は、自然言語要求から自動的にクラス図を生成することができる。
本稿では,GPT-5,Claude Sonnet 4.0,Gemini 2.5 Flash Thinking,Llama-3.1-8-B-Instructなどの最先端LLMの能力について検討する。
論文 参考訳(メタデータ) (2026-03-10T02:20:35Z) - Design-MLLM: A Reinforcement Alignment Framework for Verifiable and Aesthetic Interior Design [23.825603561362627]
インテリアデザインは要件から視覚的なプラン生成プロセスである。
MLLMは、構築不可能で、審美的に一貫性のないレイアウトを生成する。
強化アライメントフレームワークであるDesign-MLLMを提案する。
論文 参考訳(メタデータ) (2026-03-04T06:51:28Z) - GIER: Gap-Driven Self-Refinement for Large Language Models [0.8460698440162889]
GIER(Gap-driven Iterative Enhancement of Responses)は、大規模な言語モデル(LLM)出力を改善するためのフレームワークである。
GIERは、タスクの精度を低下させることなく、合理的な品質、接地、推論アライメントを改善する。
本分析は,抽象的な概念的ギャップを解釈できるだけでなく,具体的な推論改善に変換できることを示す。
論文 参考訳(メタデータ) (2025-08-30T02:54:08Z) - Meeseeks: A Feedback-Driven, Iterative Self-Correction Benchmark evaluating LLMs' Instruction Following Capability [21.96694731466089]
フィードバック機構を組み込んだ完全に自動化された命令追従ベンチマークであるMeeseeksを紹介した。
Meeseeksは、モデル応答における誤ったコンポーネントを特定し、対応するフィードバックを正確に提供することで、モデルを自己補正に向けて反復的に導く。
我々は、マクロレベルとインスタンスレベルの両方から包括的な分析を行い、現在の最先端モデルでよく見られる多くの共通問題を明らかにした。
論文 参考訳(メタデータ) (2025-04-30T13:28:19Z) - Self-Steering Language Models [113.96916935955842]
DisCIPL は "self-steering" 言語モデル (LM) の手法である。
DisCIPLは、Followerモデルの集団によって実行されるタスク固有の推論プログラムを生成する。
我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文 参考訳(メタデータ) (2025-04-09T17:54:22Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。
提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。
文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:15:01Z) - Large Language Model Agent as a Mechanical Designer [7.136205674624813]
本研究では、FEMモジュールと協調して事前訓練された大規模言語モデル(LLM)を利用して、構造設計を自律的に生成、評価、洗練するフレームワークを提案する。
LLMはドメイン固有の微調整なしで動作し、設計候補を提案し、FEMから派生した性能指標を解釈し、構造的な音響修正を適用する。
NSGA-II (Non-Sorting Genetic Algorithm II) と比較して,本手法はより高速に収束し,より少ないFEM評価を実現する。
論文 参考訳(メタデータ) (2024-04-26T16:41:24Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。