論文の概要: On the Impact of Requirements Smells in Prompts: The Case of Automated Traceability
- arxiv url: http://arxiv.org/abs/2501.04810v1
- Date: Wed, 08 Jan 2025 19:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:11.527168
- Title: On the Impact of Requirements Smells in Prompts: The Case of Automated Traceability
- Title(参考訳): プロンプトにおける要求スメルの影響について:自動トレーサビリティの場合
- Authors: Andreas Vogelsang, Alexander Korn, Giovanna Broccia, Alessio Ferrari, Jannik Fischbach, Chetan Arora,
- Abstract要約: 我々は,大言語モデル(LLM)のプロンプトに使用される曖昧さや不整合といった潜在的な問題に対する,要求の匂い指標の役割について検討する。
要求の臭いは、あるコードに要求が実装されたかどうか(トレースリンクが存在する)を予測する際には小さいが重大な効果があったが、関連するコード行で要求をトレースする場合には大きな影響は見られなかった。
これらの結果から,要求臭は特定のSEタスクのLLM性能に影響を及ぼすが,全てのタスクに均一に影響を与えない可能性が示唆された。
- 参考スコア(独自算出の注目度): 45.24937784556523
- License:
- Abstract: Large language models (LLMs) are increasingly used to generate software artifacts, such as source code, tests, and trace links. Requirements play a central role in shaping the input prompts that guide LLMs, as they are often used as part of the prompts to synthesize the artifacts. However, the impact of requirements formulation on LLM performance remains unclear. In this paper, we investigate the role of requirements smells-indicators of potential issues like ambiguity and inconsistency-when used in prompts for LLMs. We conducted experiments using two LLMs focusing on automated trace link generation between requirements and code. Our results show mixed outcomes: while requirements smells had a small but significant effect when predicting whether a requirement was implemented in a piece of code (i.e., a trace link exists), no significant effect was observed when tracing the requirements with the associated lines of code. These findings suggest that requirements smells can affect LLM performance in certain SE tasks but may not uniformly impact all tasks. We highlight the need for further research to understand these nuances and propose future work toward developing guidelines for mitigating the negative effects of requirements smells in AI-driven SE processes.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、ソースコードやテスト、トレースリンクなどのソフトウェアアーチファクトを生成するために、ますます使われています。
要求は LLM を誘導する入力プロンプトを形成する上で中心的な役割を果たす。
しかし, 要件定式化がLLM性能に与える影響は未定である。
本稿では,LCMのプロンプトに使用される曖昧さや不整合といった潜在的な問題に対する,要求の匂い指標の役割について検討する。
要件とコード間のトレースリンクの自動生成に着目した2つのLLMを用いて実験を行った。
要求の臭いは、あるコードに要求が実装されたかどうか(トレースリンクが存在する)を予測する際には小さいが重大な効果があったが、関連するコード行で要求をトレースする場合には大きな影響は見られなかった。
これらの結果から,要求臭は特定のSEタスクのLLM性能に影響を及ぼすが,全てのタスクに均一に影響を与えない可能性が示唆された。
我々は、これらのニュアンスを理解するためのさらなる研究の必要性を強調し、AI駆動のSEプロセスにおける要求臭の悪影響を軽減するためのガイドライン開発に向けた今後の取り組みを提案する。
関連論文リスト
- SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - Towards Boosting LLMs-driven Relevance Modeling with Progressive Retrieved Behavior-augmented Prompting [23.61061000692023]
本研究では,検索ログに記録されたユーザインタラクションを活用して,ユーザの暗黙の検索意図に対する洞察を得ることを提案する。
ProRBPは,探索シナリオ指向の知識を大規模言語モデルと統合するための,プログレッシブ検索行動拡張型プロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-08-18T11:07:38Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - What Did I Do Wrong? Quantifying LLMs' Sensitivity and Consistency to Prompt Engineering [8.019873464066308]
分類タスク,すなわち感度と一貫性の2つの指標を導入する。
感度はプロンプトの 言い換えによる予測の変化を測る
その代わり、一貫性は、同じクラスの要素の言い換えで予測がどのように変化するかを測定する。
論文 参考訳(メタデータ) (2024-06-18T06:59:24Z) - Guiding LLM Temporal Logic Generation with Explicit Separation of Data and Control [0.7580487359358722]
時間論理は、反応系の合成と検証に広く使われている強力なツールである。
大規模言語モデルに関する最近の進歩は、そのような仕様を書くプロセスをよりアクセスしやすいものにする可能性がある。
論文 参考訳(メタデータ) (2024-06-11T16:07:24Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Feedback Loops With Language Models Drive In-Context Reward Hacking [78.9830398771605]
フィードバックループがコンテキスト内報酬ハッキング(ICRH)を引き起こす可能性があることを示す。
ICRHに繋がる2つのプロセス、すなわちアウトプット・リファインメントとポリシー・リファインメントを同定し研究する。
AI開発が加速するにつれて、フィードバックループの効果が増大する。
論文 参考訳(メタデータ) (2024-02-09T18:59:29Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。