論文の概要: Evaluating LLM-Based Goal Extraction in Requirements Engineering: Prompting Strategies and Their Limitations
- arxiv url: http://arxiv.org/abs/2604.22207v1
- Date: Fri, 24 Apr 2026 04:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.337928
- Title: Evaluating LLM-Based Goal Extraction in Requirements Engineering: Prompting Strategies and Their Limitations
- Title(参考訳): 要求工学におけるLCMに基づくゴール抽出の評価:提案戦略と限界
- Authors: Anna Arnaudo, Riccardo Coppola, Maurizio Morisio, Flavio Giobergia, Andrea Bioddo, Angelo Bongiorno, Luca Dadone,
- Abstract要約: 本稿では,Goal-Oriented Requirements Engineering(GORE)プロセスを自動化するための,ソフトウェアドキュメントから機能目標を抽出するアプローチについて議論する。
これらの機能を実装するために,工学的なプロンプトを組み込んだ大規模言語モデルの連鎖を提案する。
パイプラインは最終段階である低レベルゴール識別において61%の精度を達成したが、これらの結果は手動抽出を高速化するツールとして最適であることを示している。
- 参考スコア(独自算出の注目度): 4.451267761568192
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Due to the textual and repetitive nature of many Requirements Engineering (RE) artefacts, Large Language Models (LLMs) have proven useful to automate their generation and processing. In this paper, we discuss a possible approach for automating the Goal-Oriented Requirements Engineering (GORE) process by extracting functional goals from software documentation through three phases: actor identification, high and low-level goal extraction. To implement these functionalities, we propose a chain of LLMs fed with engineered prompts. We experimented with different variants of in-context learning and measured the similarities between input data and in-context examples to better investigate their impact. Another key element is the generation-critic mechanism, implemented as a feedback loop involving two LLMs. Although the pipeline achieved 61% accuracy in low-level goal identification, the final stage, these results indicate the approach is best suited as a tool to accelerate manual extraction rather than as a full replacement. The feedback-loop mechanism with Zero-shot outperformed stand-alone Few-shot, with an ablation study suggesting that performance slightly degrades without the feedback cycle. However, we reported that the combination of the feedback mechanism with Few-shot does not deliver any advantage, possibly suggesting that the primary performance ceiling is the prompting strategy applied to the 'critic' LLM. Together with the refinement of both the quantity and quality of the Shot examples, future research will integrate Retrieval-Augmented Generation (RAG) and Chain-of-Thought (CoT) prompting to improve accuracy.
- Abstract(参考訳): 多くの要求工学(RE)アーティファクトのテキスト的かつ反復的な性質のため、LLM(Large Language Models)はその生成と処理を自動化するのに有用であることが証明されている。
本稿では,ソフトウェアドキュメンテーションから,アクター識別,ハイレベル,ローレベルな目標抽出という3つのフェーズを通じて機能目標を抽出することで,ゴール指向要求工学(GORE)プロセスを自動化するためのアプローチについて議論する。
これらの機能を実装するために,設計したプロンプトを組み込んだLLMの連鎖を提案する。
インコンテキスト学習の異なるバリエーションを実験し、インコンテキストデータとインコンテキストサンプルの類似性を測定し、その影響をよりよく調査した。
もう一つの重要な要素はジェネレーションクリティカル機構であり、2つのLLMを含むフィードバックループとして実装されている。
パイプラインは最終段階である低レベルゴール識別において61%の精度を達成したが、これらの結果は、完全な代替品としてではなく、手動抽出を高速化するツールとして最適であることを示している。
Zero-shotによるフィードバックループ機構は、スタンドアローンのFew-shotよりも優れており、アブレーション研究では、フィードバックサイクルなしでパフォーマンスがわずかに低下することを示している。
しかし, フィードバック機構とFew-shotの組み合わせは, いずれの利点も得られず, 主要な性能天井が「批判的」 LLM に適用されるプロンプト戦略である可能性が示唆された。
ショットサンプルの量と品質の両面での改善とともに、今後の研究は、精度の向上を推進すべく、検索補助生成(RAG)とCoT(Chain-of-Thought)を統合する。
関連論文リスト
- RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis [78.32151470154422]
テスト担当者が自律的に設計し、典型的な合成操作を実行できるようにするためのエージェントフレームワークであるRAVELを紹介する。
C3EBenchは、プロの人間の文章から1,258個のサンプルを抽出したベンチマークである。
SOTA LLMを演算子としてRAVELを増強することにより、そのようなエージェントテキスト合成はLLMの推論能力に支配されていることがわかった。
論文 参考訳(メタデータ) (2026-02-28T14:47:34Z) - From Brute Force to Semantic Insight: Performance-Guided Data Transformation Design with LLMs [48.83701310501069]
大規模言語モデル(LLM)は、コード合成において顕著な性能を達成した。
本稿では,LLMが最適変換を自律的に設計できる性能対応クローズドループソリューションを提案する。
6,000以上のPyTorch拡張関数を実験的に評価した新しいリポジトリ上で,低ランク適応型LPMを微調整する。
論文 参考訳(メタデータ) (2026-01-07T11:13:02Z) - SCRIBE: Structured Mid-Level Supervision for Tool-Using Language Models [10.04930078540686]
SCRIBEは、新しい中間レベルの抽象化に介入する強化学習フレームワークである。
さまざまな推論とツール使用ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-07T03:49:48Z) - Language Ranker: A Lightweight Ranking framework for LLM Decoding [70.01564145836129]
本稿では,レコメンデーションパイプラインのランク付け段階に類似した復号過程を概念化する。
この知見に触発されて、我々はLanguage Rankerを提案する。
実験の結果、Language Rankerは大規模報酬モデルに匹敵するパフォーマンスを達成する一方で、0.5Mの追加パラメータしか必要としないことがわかった。
論文 参考訳(メタデータ) (2025-10-23T17:56:46Z) - Your Coding Intent is Secretly in the Context and You Should Deliberately Infer It Before Completion [18.177415287934487]
大規模言語モデル(LLM)は、リポジトリスケールでの関数補完にますます使われています。
現実のリポジトリでは、このようなアノテーションは頻繁に欠落し、パフォーマンスは大幅に低下します。
我々は、タスクを3段階のプロセスとして構成する。第1段階はインテント推論に焦点を当て、モデルがターゲット関数の前のコードを解析して、所望の機能に関する手がかりを明らかにする。
第2段階では、事前のコンテキストだけでは意図回復に不十分なケースを扱うための、オプションのインタラクティブリファインメント機構が導入されている。
論文 参考訳(メタデータ) (2025-08-13T06:45:23Z) - Unleashing the Power of Large Language Models in Zero-shot Relation Extraction via Self-Prompting [21.04933334040135]
本稿では,大規模言語モデルに組み込まれたRE知識を十分に活用する新しい手法であるSelf-Promptingフレームワークを紹介する。
我々のフレームワークは3段階の多様性アプローチを用いてLSMを誘導し、スクラッチから特定の関係をカプセル化する複数の合成サンプルを生成する。
ベンチマークデータセットを用いた実験により,既存のLCMベースのゼロショットRE法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-10-02T01:12:54Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。