論文の概要: TraceLLM: Leveraging Large Language Models with Prompt Engineering for Enhanced Requirements Traceability
- arxiv url: http://arxiv.org/abs/2602.01253v1
- Date: Sun, 01 Feb 2026 14:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.67925
- Title: TraceLLM: Leveraging Large Language Models with Prompt Engineering for Enhanced Requirements Traceability
- Title(参考訳): TraceLLM: 要求トレーサビリティ向上のためのプロンプトエンジニアリングによる大規模言語モデルの活用
- Authors: Nouf Alturayeif, Irfan Ahmad, Jameleddine Hassine,
- Abstract要約: 本稿では,要求トレーサビリティ向上のためのフレームワークであるTraceLLMを紹介する。
我々は,4つのベンチマークデータセット上で8つの最先端LCMを用いて,迅速な一般化とロバスト性を評価する。
- 参考スコア(独自算出の注目度): 4.517933493143603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Requirements traceability, the process of establishing and maintaining relationships between requirements and various software development artifacts, is paramount for ensuring system integrity and fulfilling requirements throughout the Software Development Life Cycle (SDLC). Traditional methods, including manual and information retrieval models, are labor-intensive, error-prone, and limited by low precision. Recently, Large Language Models (LLMs) have demonstrated potential for supporting software engineering tasks through advanced language comprehension. However, a substantial gap exists in the systematic design and evaluation of prompts tailored to extract accurate trace links. This paper introduces TraceLLM, a systematic framework for enhancing requirements traceability through prompt engineering and demonstration selection. Our approach incorporates rigorous dataset splitting, iterative prompt refinement, enrichment with contextual roles and domain knowledge, and evaluation across zero- and few-shot settings. We assess prompt generalization and robustness using eight state-of-the-art LLMs on four benchmark datasets representing diverse domains (aerospace, healthcare) and artifact types (requirements, design elements, test cases, regulations). TraceLLM achieves state-of-the-art F2 scores, outperforming traditional IR baselines, fine-tuned models, and prior LLM-based methods. We also explore the impact of demonstration selection strategies, identifying label-aware, diversity-based sampling as particularly effective. Overall, our findings highlight that traceability performance depends not only on model capacity but also critically on the quality of prompt engineering. In addition, the achieved performance suggests that TraceLLM can support semi-automated traceability workflows in which candidate links are reviewed and validated by human analysts.
- Abstract(参考訳): 要件トレーサビリティ(Requires Traceability)とは,要件とさまざまなソフトウェア開発成果物との関係を確立し,維持するプロセスである。
手動および情報検索モデルを含む従来の手法は、労働集約的であり、エラーを起こし、低い精度で制限される。
近年,Large Language Models (LLMs) は,高度な言語理解を通じてソフトウェア工学タスクを支援する可能性を実証している。
しかし、正確なトレースリンクの抽出に適したプロンプトの体系設計と評価には、かなりのギャップが存在する。
本稿では,プロンプトエンジニアリングとデモ選択による要求トレーサビリティ向上のための体系的フレームワークであるTraceLLMを紹介する。
このアプローチには、厳密なデータセット分割、反復的な迅速な改善、コンテキスト役割とドメイン知識の充実、ゼロショットと少数ショットの設定による評価が含まれる。
多様な領域(航空宇宙、医療)とアーティファクトタイプ(要求、設計要素、テストケース、規制)を表す4つのベンチマークデータセット上で、8つの最先端LCMを用いて、迅速な一般化と堅牢性を評価する。
TraceLLMは最先端のF2スコアを達成し、従来のIRベースライン、微調整されたモデル、および以前のLCMベースの手法より優れている。
また、ラベル認識、多様性に基づくサンプリングが特に有効であることを示す、デモ選択戦略の影響についても検討する。
全体として、トレーサビリティのパフォーマンスはモデルキャパシティだけでなく、プロンプトエンジニアリングの品質にも大きく依存する。
さらに、TraceLLMは、候補リンクをレビューし、人間アナリストが検証する半自動化トレーサビリティワークフローをサポートできることを示す。
関連論文リスト
- Towards Agentic Intelligence for Materials Science [73.4576385477731]
この調査は、コーパスキュレーションからプレトレーニングから、シミュレーションと実験プラットフォームに面した目標条件付きエージェントまで、ユニークなパイプライン中心の視点を推し進める。
コミュニティをブリッジし、参照の共有フレームを確立するために、まず、AIと材料科学をまたいだ用語、評価、ワークフローの段階を整列する統合レンズを提示する。
論文 参考訳(メタデータ) (2026-01-29T23:48:43Z) - Towards Comprehensive Benchmarking Infrastructure for LLMs In Software Engineering [19.584762693453893]
BEHELMは、ソフトウェア・シナリオ仕様とマルチメトリック評価を一体化する総合的なベンチマーク基盤である。
私たちのゴールは、ソフトウェア工学におけるLLMの公平で現実的で将来的な評価を可能にしながら、ベンチマークを構築するのに必要なオーバーヘッドを減らすことです。
論文 参考訳(メタデータ) (2026-01-28T21:55:10Z) - Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - Data-Driven Methods and AI in Engineering Design: A Systematic Literature Review Focusing on Challenges and Opportunities [0.2545763876632975]
機械学習と統計的手法が現在の実践を支配しているのに対して、ディープラーニングは採用における明らかな上昇傾向を示している。
既存のアプリケーションの主な課題は、限定されたモデル解釈可能性、低い段階的トレーサビリティ、現実の条件下での検証の不十分である。
このレビューは、設計段階のガイドラインへの第一歩であり、フォローアップ合成は、コンピュータ科学のアルゴリズムをエンジニアリング設計の問題や活動にマッピングするべきである。
論文 参考訳(メタデータ) (2025-11-25T11:16:38Z) - LLM Agents for Interactive Workflow Provenance: Reference Architecture and Evaluation Methodology [3.470217255779291]
本稿では,対話型大規模言語モデル(LLM)エージェントをランタイムデータ解析に活用する評価手法,参照アーキテクチャ,オープンソース実装を提案する。
提案手法では,自然言語を構造化された前処理クエリに変換する軽量なメタデータ駆動型設計を用いる。
LLaMA、GPT、Gemini、Claudeにまたがる評価では、多様なクエリクラスと現実世界の化学ワークフローを網羅し、モジュール設計、即時チューニング、Retrieval-Augmented Generation (RAG)が正確で洞察に富んだエージェント応答を可能にすることを示している。
論文 参考訳(メタデータ) (2025-09-17T13:51:29Z) - Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。
ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。
SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文 参考訳(メタデータ) (2025-06-12T15:52:32Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Large Language Models as Realistic Microservice Trace Generators [48.730974361862366]
本稿では,大規模言語モデル (LLM) を用いて, 合成作業負荷トレースを生成する手法を提案する。
我々はTraceLLMが様々な条件下で多様なリアルなトレースを生成し、精度と妥当性の両方において既存のアプローチよりも優れていることを示す。
TraceLLMは、キートレース機能を予測したり、欠落したデータを埋め込むといった、下流のトレース関連タスクに適応する。
論文 参考訳(メタデータ) (2024-12-16T12:48:04Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。