論文の概要: Early-Stage Product Line Validation Using LLMs: A Study on Semi-Formal Blueprint Analysis
- arxiv url: http://arxiv.org/abs/2604.20523v1
- Date: Wed, 22 Apr 2026 13:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.133129
- Title: Early-Stage Product Line Validation Using LLMs: A Study on Semi-Formal Blueprint Analysis
- Title(参考訳): LLMを用いた早期製品ライン検証:半形式的青写真解析に関する研究
- Authors: Viet-Man Le, Thi Ngoc Trang Tran, Sebastian Lubos, Alexander Felfernig, Damian Garber,
- Abstract要約: 本研究では,Large Language Models (LLMs) が半形式テキスト青写真上で,特徴モデル解析操作 (AOs) を直接実行可能であるかを検討する。
12の最先端LCMと16の標準AOを用いて、それらの出力をソルバベースのオラクルFLAMAと比較する。
その結果、推論最適化モデル(Grok 4 Fast Reasoning、Gemini 2.5 Proなど)は、評価されたすべての青写真と操作で平均88~89%の精度を達成した。
- 参考スコア(独自算出の注目度): 41.966962052550656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study whether Large Language Models (LLMs) can perform feature model analysis operations (AOs) directly on semi-formal textual blueprints, i.e., concise constrained-language descriptions of feature hierarchies and constraints, enabling early validation in Software Product Line scoping. Using 12 state-of-the-art LLMs and 16 standard AOs, we compare their outputs against the solver-based oracle FLAMA. Results show that reasoning-optimized models (e.g., Grok 4 Fast Reasoning, Gemini 2.5 Pro) achieve 88-89% average accuracy across all evaluated blueprints and operations, approaching solver correctness. We identify systematic errors in structural parsing and constraint reasoning, and highlight accuracy-cost trade-offs that inform model selection. These findings position LLMs as lightweight assistants for early variability validation.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) が半形式的テキスト青写真上で機能モデル解析操作(AOs)を直接行うことができるか,すなわち,機能階層と制約の簡潔な言語記述により,ソフトウェア製品ラインスコーピングの早期検証を可能にするかを検討する。
12の最先端LCMと16の標準AOを用いて、それらの出力をソルバベースのオラクルFLAMAと比較する。
その結果, 推論最適化モデル (Grok 4 Fast Reasoning, Gemini 2.5 Pro) は, 全ての評価青写真および操作において平均88~89%の精度を達成し, ソルバの正確性にアプローチした。
構造解析および制約推論における系統的誤りを特定し、モデル選択を通知する精度とコストのトレードオフを明らかにする。
これらの知見は,LSMを早期変数検証のための軽量アシスタントとして位置づけた。
関連論文リスト
- Talk is Cheap, Logic is Hard: Benchmarking LLMs on Post-Condition Formalization [0.32665457005470505]
本稿では,プログラムの FULL プレコンディションとポストコンディションの生成における LLM の有効性について述べる。
新たな40タスクのデータセットを用いて24種類の最先端LCMを評価した。
論文 参考訳(メタデータ) (2026-03-17T22:46:42Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - ORGEval: Graph-Theoretic Evaluation of LLMs in Optimization Modeling [18.8099769877788]
ORGEvalは線形および混合整数線形プログラムの定式化における大規模言語モデルの能力を評価するためのグラフ理論評価フレームワークである。
ORGEvalはモデル等価性の検出に成功し、ランダムなパラメータ構成で100%一貫した結果が得られることを示す。
この結果から,全てのLLMにおいて最適化モデリングは依然として困難であるが,DeepSeek-V3とClaude-Opus-4は直接的プロンプト下では最高の精度を達成できることがわかった。
論文 参考訳(メタデータ) (2025-10-31T16:35:52Z) - Utilizing Large Language Models for Machine Learning Explainability [37.31918138232927]
本研究では,機械学習(ML)ソリューションを自律的に生成する際の,大規模言語モデル(LLM)の説明可能性について検討する。
最先端の3つのLCMは、ランダムフォレスト、XGBoost、マルチレイヤーパーセプトロン、ロング短期記憶ネットワークの4つの共通分類器のためのトレーニングパイプラインを設計するよう促される。
生成したモデルは、SHAP(SHapley Additive exPlanations)を用いた予測性能(リコール、精度、F1スコア)と説明可能性の観点から評価される。
論文 参考訳(メタデータ) (2025-10-08T11:46:23Z) - Audited Reasoning Refinement: Fine-Tuning Language Models via LLM-Guided Step-Wise Evaluation and Correction [1.41282143488996]
人間の直接監督や高品質なラベルが不足している場合、タスク固有の小さな推論モデルのトレーニングは困難である。
本稿では,Reason-Refine-then-Align (R2tA)を提案する。
論文 参考訳(メタデータ) (2025-09-15T21:47:52Z) - The Impact of Critique on LLM-Based Model Generation from Natural Language: The Case of Activity Diagrams [1.3252590516094356]
大規模言語モデル(LLM)は、自然言語記述からモデル生成を自動化する強力な可能性を示している。
LLM-driven critique-refine process を用いて、自然言語によるプロセス記述からアクティビティ図を導出するパイプライン LADEX を提案する。
論文 参考訳(メタデータ) (2025-09-03T16:39:25Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。