論文の概要: How Good Are Synthetic Requirements ? Evaluating LLM-Generated Datasets for AI4RE
- arxiv url: http://arxiv.org/abs/2506.21138v1
- Date: Thu, 26 Jun 2025 10:52:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.051918
- Title: How Good Are Synthetic Requirements ? Evaluating LLM-Generated Datasets for AI4RE
- Title(参考訳): 合成要求はどの程度優れているか? AI4REのためのLLM生成データセットの評価
- Authors: Abdelkarim El-Hajjami, Camille Salinesi,
- Abstract要約: 本稿では,合成要求データを生成するための改良された製品ラインアプローチを提案する。
提案する4つの研究課題は,データ品質にどのような影響を及ぼすか,また,自動的なプロンプト最適化,およびポストジェネレーションのキュレーションについて検討する。
以上の結果から, 人工的な要件は, 特定のタスクにおいて, 人為的な要件と一致し, より優れる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.5156484100374059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The shortage of publicly available, labeled requirements datasets remains a major barrier to advancing Artificial Intelligence for Requirements Engineering (AI4RE). While Large Language Models offer promising capabilities for synthetic data generation, systematic approaches to control and optimize the quality of generated requirements remain underexplored. This paper presents Synthline v1, an enhanced Product Line approach for generating synthetic requirements data that extends our earlier v0 version with advanced generation strategies and curation techniques. We investigate four research questions assessing how prompting strategies, automated prompt optimization, and post-generation curation affect data quality across four classification tasks: defect detection, functional vs. non-functional, quality vs. non-quality, and security vs. non-security. Our evaluation shows that multi-sample prompting significantly boosts both utility and diversity over single-sample generation, with F1-score gains from 6 to 44 points. The use of PACE (Prompt Actor-Critic Editing) for automated prompt optimization yields task-dependent results, greatly improving functional classification (+32.5 points) but reducing performance on others. Interestingly, similarity-based curation improves diversity but often harms classification performance, indicating that some redundancy may help ML models. Most importantly, our results show that synthetic requirements can match or outperform human-authored ones for specific tasks, with synthetic data surpassing human data for security (+7.8 points) and defect classification (+15.4 points). These findings offer practical insights for AI4RE and chart a viable path to mitigating dataset scarcity through systematic synthetic generation.
- Abstract(参考訳): 公開可能なラベル付き要求データセットの不足は、AI4RE(Artificial Intelligence for Requirements Engineering)の進展の大きな障壁であり続けている。
大規模言語モデルは、合成データ生成に有望な機能を提供するが、生成された要求の品質を制御し、最適化するための体系的なアプローチは、まだ未定のままである。
本稿では,先進的な生成戦略とキュレーション手法を用いて,既存のv0バージョンを拡張した合成要求データを生成するための製品ライン拡張手法であるSynthline v1を提案する。
本研究では,障害検出,機能的対非機能的対非機能的対非機能的対非品質,セキュリティ対非セキュリティという4つの分類課題における,迅速な戦略,自動プロンプト最適化,およびポストジェネレーションのキュレーションがデータ品質に与える影響を評価する4つの研究課題について検討する。
評価の結果,F1スコアは6点から44点に向上した。
PACE(Prompt Actor-Critic Editing)を自動的なプロンプト最適化に使用すると、タスク依存の結果が得られ、機能分類(+32.5ポイント)が大幅に改善されるが、性能は低下する。
興味深いことに、類似性に基づくキュレーションは多様性を向上させるが、しばしば分類性能を損なう。
最も重要なのは, 人工的な要求は, 特定のタスクにおいて, 人為的データ(+7.8ポイント) と欠陥分類(+15.4ポイント)を超越した, 特定のタスクにおいて, 人為的な要求に適合し, より優れることを示すことである。
これらの発見は、AI4REに実用的な洞察を与え、体系的な合成生成を通じてデータセットの不足を緩和するための実行可能なパスをチャート化します。
関連論文リスト
- Synthetic Code Surgery: Repairing Bugs and Vulnerabilities with LLMs and Synthetic Data [0.0]
本稿では,Large Language Models(LLMs)を用いた合成データ生成によるAPR(Automated Program repair)の向上手法を提案する。
提案手法は, 合成試料生成と厳密な品質評価という2段階のプロセスを通じて, この制限に対処する。
VulRepairテストセットデータセットの実験評価では、完全予測率の統計的に有意な改善が見られた。
論文 参考訳(メタデータ) (2025-05-12T09:14:20Z) - Generating Reliable Synthetic Clinical Trial Data: The Role of Hyperparameter Optimization and Domain Constraints [0.0]
本研究は,8つの生成モデルにまたがる4つのHPO戦略を系統的に評価する。
以上の結果から,HPOはTVAE,CTGAN,CTAB-GAN+をそれぞれ60%,39%,38%改善した。
HPOだけでは、すべてのモデルが基本的な生存制限に違反しているため、臨床的に有効な合成データを保証するには不十分である。
論文 参考訳(メタデータ) (2025-05-08T07:51:36Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Automatic Prompt Optimization Techniques: Exploring the Potential for Synthetic Data Generation [0.0]
医療などの専門分野において、データ取得はプライバシー規制、倫理的配慮、可用性の制限による重大な制約に直面している。
大規模プロンプトベースモデルの出現は、保護されたデータに直接アクセスすることなく、合成データ生成の新しい機会を示す。
PRISMAガイドラインに従って, 自動プロンプト最適化の最近の展開を概観する。
論文 参考訳(メタデータ) (2025-02-05T11:13:03Z) - Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。