論文の概要: Technique to Baseline QE Artefact Generation Aligned to Quality Metrics
- arxiv url: http://arxiv.org/abs/2511.15733v1
- Date: Tue, 18 Nov 2025 05:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.299952
- Title: Technique to Baseline QE Artefact Generation Aligned to Quality Metrics
- Title(参考訳): 品質基準を基準としたQEアーチファクト生成技術
- Authors: Eitan Farchi, Kiran Nayak, Papia Ghosh Majumdar, Saritha Route,
- Abstract要約: 大言語モデル(LLM)は品質工学(QE)を変えつつある
本稿では,定量化指標を用いてQEアーティファクトをベースライン化し,評価する手法を提案する。
- 参考スコア(独自算出の注目度): 1.1580025716071967
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) are transforming Quality Engineering (QE) by automating the generation of artefacts such as requirements, test cases, and Behavior Driven Development (BDD) scenarios. However, ensuring the quality of these outputs remains a challenge. This paper presents a systematic technique to baseline and evaluate QE artefacts using quantifiable metrics. The approach combines LLM-driven generation, reverse generation , and iterative refinement guided by rubrics technique for clarity, completeness, consistency, and testability. Experimental results across 12 projects show that reverse-generated artefacts can outperform low-quality inputs and maintain high standards when inputs are strong. The framework enables scalable, reliable QE artefact validation, bridging automation with accountability.
- Abstract(参考訳): 大きな言語モデル(LLM)は、要件やテストケース、振る舞い駆動開発(BDD)シナリオなどの成果物の自動生成によって、品質エンジニアリング(QE)を変革しています。
しかし、これらのアウトプットの品質を保証することは依然として課題である。
本稿では,定量化指標を用いてQEアーティファクトをベースライン化し,評価する手法を提案する。
このアプローチは、LCMによる生成、リバースジェネレーション、および、明確性、完全性、一貫性、テスト容易性のためのルーブリック技術によって導かれる反復的洗練を組み合わせている。
12プロジェクトにわたる実験結果から, 逆生成アーチファクトは低品質な入力よりも優れ, 入力が強い場合には高い標準を維持することができることがわかった。
このフレームワークは、スケーラブルで信頼性の高いQEアーティファクト検証、説明責任による自動化を可能にする。
関連論文リスト
- Q-Mirror: Unlocking the Multi-Modal Potential of Scientific Text-Only QA Pairs [60.0988889107102]
テキストオンリーQAペア(TQA)を高品質マルチモーダルQAペア(MMQA)に変換する可能性を探る。
我々は、TQA-to-MMQAフレームワークを開発し、変換の原則を提供する包括的で多次元のMMQA品質を確立する。
我々は,MMQA生成と評価を反復精製のためのクローズドループに統合することにより,我々のフレームワークを運用するエージェントシステム(Q-Mirror)を開発した。
論文 参考訳(メタデータ) (2025-09-29T05:22:10Z) - Automated Validation of LLM-based Evaluators for Software Engineering Artifacts [0.7548538278943616]
REFINE(Ranking Evaluators for FIne grained Nuanced Evaluation)は、大規模言語モデル(LLM)をベンチマークする自動化フレームワークである。
REFINEは、徐々に品質が低下したアーティファクトを自動的に合成するために、新しい生成技術を適用している。
それぞれの候補評価器の構成を、そのランクが期待された順序にどの程度近いかを測定することで定量化する。
論文 参考訳(メタデータ) (2025-08-04T18:52:01Z) - IQPFR: An Image Quality Prior for Blind Face Restoration and Beyond [56.99331967165238]
Blind Face Restoration (BFR)は、劣化した低品質(LQ)の顔画像を高品質(HQ)の出力に再構成する課題に対処する。
本研究では,非参照画像品質評価(NR-IQA)モデルから得られた画像品質優先(IQP)を組み込んだ新しいフレームワークを提案する。
提案手法は,複数のベンチマークにおいて最先端技術より優れている。
論文 参考訳(メタデータ) (2025-03-12T11:39:51Z) - Requirements-Driven Automated Software Testing: A Systematic Review [12.953746641112518]
この体系的な文献は、要求入力フォーマット、変換技術、生成されたテストアーティファクト、評価方法、一般的な制限の現状を批判的に検証する。
本研究は,機能要件,モデルベース仕様,自然言語フォーマットの優位性に注目した。
テストケース、構造化されたテキスト形式、要求カバレッジは一般的だが、完全な自動化は依然として稀である。
論文 参考訳(メタデータ) (2025-02-25T23:13:09Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Customized Retrieval Augmented Generation and Benchmarking for EDA Tool Documentation QA [5.0108982850526]
検索拡張生成(RAG)は、外部データベースから事実情報を抽出することにより、生成AIモデルの精度と信頼性を高める。
本稿では、EDAツールドキュメンテーションQAのための3つのドメイン固有のテクニックとともに、カスタマイズされたRAGフレームワークを提案する。
我々は,高度なRTL-to-GDSII設計プラットフォームであるOpenROADのドキュメントQA評価ベンチマークであるORD-QAを開発し,リリースした。
論文 参考訳(メタデータ) (2024-07-22T03:44:27Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。