Fugu-MT 論文翻訳(概要): On the Impact of Requirements Smells in Prompts: The Case of Automated Traceability

論文の概要: On the Impact of Requirements Smells in Prompts: The Case of Automated Traceability

arxiv url: http://arxiv.org/abs/2501.04810v1
Date: Wed, 08 Jan 2025 19:54:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-10 17:34:41.319982
Title: On the Impact of Requirements Smells in Prompts: The Case of Automated Traceability
Title（参考訳）: プロンプトにおける要求スメルの影響について:自動トレーサビリティの場合
Authors: Andreas Vogelsang, Alexander Korn, Giovanna Broccia, Alessio Ferrari, Jannik Fischbach, Chetan Arora,
Abstract要約: 我々は,大言語モデル(LLM)のプロンプトに使用される曖昧さや不整合といった潜在的な問題に対する,要求の匂い指標の役割について検討する。要求の臭いは、あるコードに要求が実装されたかどうか(トレースリンクが存在する)を予測する際には小さいが重大な効果があったが、関連するコード行で要求をトレースする場合には大きな影響は見られなかった。これらの結果から,要求臭は特定のSEタスクのLLM性能に影響を及ぼすが,全てのタスクに均一に影響を与えない可能性が示唆された。
参考スコア（独自算出の注目度）: 45.24937784556523
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are increasingly used to generate software artifacts, such as source code, tests, and trace links. Requirements play a central role in shaping the input prompts that guide LLMs, as they are often used as part of the prompts to synthesize the artifacts. However, the impact of requirements formulation on LLM performance remains unclear. In this paper, we investigate the role of requirements smells-indicators of potential issues like ambiguity and inconsistency-when used in prompts for LLMs. We conducted experiments using two LLMs focusing on automated trace link generation between requirements and code. Our results show mixed outcomes: while requirements smells had a small but significant effect when predicting whether a requirement was implemented in a piece of code (i.e., a trace link exists), no significant effect was observed when tracing the requirements with the associated lines of code. These findings suggest that requirements smells can affect LLM performance in certain SE tasks but may not uniformly impact all tasks. We highlight the need for further research to understand these nuances and propose future work toward developing guidelines for mitigating the negative effects of requirements smells in AI-driven SE processes.
Abstract（参考訳）: 大規模な言語モデル(LLM)は、ソースコードやテスト、トレースリンクなどのソフトウェアアーチファクトを生成するために、ますます使われています。要求は LLM を誘導する入力プロンプトを形成する上で中心的な役割を果たす。しかし, 要件定式化がLLM性能に与える影響は未定である。本稿では,LCMのプロンプトに使用される曖昧さや不整合といった潜在的な問題に対する,要求の匂い指標の役割について検討する。要件とコード間のトレースリンクの自動生成に着目した2つのLLMを用いて実験を行った。要求の臭いは、あるコードに要求が実装されたかどうか(トレースリンクが存在する)を予測する際には小さいが重大な効果があったが、関連するコード行で要求をトレースする場合には大きな影響は見られなかった。これらの結果から,要求臭は特定のSEタスクのLLM性能に影響を及ぼすが,全てのタスクに均一に影響を与えない可能性が示唆された。我々は、これらのニュアンスを理解するためのさらなる研究の必要性を強調し、AI駆動のSEプロセスにおける要求臭の悪影響を軽減するためのガイドライン開発に向けた今後の取り組みを提案する。

関連論文リスト

Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
A Course Correction in Steerability Evaluation: Revealing Miscalibration and Side Effects in LLMs [14.334903198382287]
大規模言語モデルが幅広いユーザ目標に沿ったアウトプットを生成できるかどうかは不明だ。プロンプトエンジニアリングのような操縦性を改善するための介入は、様々な効果がある。強力なLCMでさえ操舵性に苦しむが、既存のアライメント戦略は不十分である。
論文参考訳（メタデータ） (2025-05-27T21:29:52Z)
How Effective are Generative Large Language Models in Performing Requirements Classification? [4.429729688079712]
本研究では,2次および複数クラスの要件分類を行う3つの生成的大規模言語モデル(LLM)の有効性について検討した。我々の研究は、素早い設計やLLMアーキテクチャといった要因は普遍的に重要であるが、データセットのバリエーションなどの要因は、分類作業の複雑さに応じて、より状況に影響を及ぼすと結論付けている。
論文参考訳（メタデータ） (2025-04-23T14:41:11Z)
SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。 SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
Towards Boosting LLMs-driven Relevance Modeling with Progressive Retrieved Behavior-augmented Prompting [23.61061000692023]
本研究では,検索ログに記録されたユーザインタラクションを活用して,ユーザの暗黙の検索意図に対する洞察を得ることを提案する。 ProRBPは,探索シナリオ指向の知識を大規模言語モデルと統合するための,プログレッシブ検索行動拡張型プロンプトフレームワークである。
論文参考訳（メタデータ） (2024-08-18T11:07:38Z)
Are LLMs Good Annotators for Discourse-level Event Relation Extraction? [15.365993658296016]
談話レベルの事象関係抽出タスクにおけるLarge Language Models (LLMs) の有効性を評価する。商用モデル GPT-3.5 とオープンソースモデル LLaMA-2 を用いて評価を行った。
論文参考訳（メタデータ） (2024-07-28T19:27:06Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
What Did I Do Wrong? Quantifying LLMs' Sensitivity and Consistency to Prompt Engineering [8.019873464066308]
分類タスク,すなわち感度と一貫性の2つの指標を導入する。感度はプロンプトの言い換えによる予測の変化を測るその代わり、一貫性は、同じクラスの要素の言い換えで予測がどのように変化するかを測定する。
論文参考訳（メタデータ） (2024-06-18T06:59:24Z)
Guiding LLM Temporal Logic Generation with Explicit Separation of Data and Control [0.7580487359358722]
時間論理は、反応系の合成と検証に広く使われている強力なツールである。大規模言語モデルに関する最近の進歩は、そのような仕様を書くプロセスをよりアクセスしやすいものにする可能性がある。
論文参考訳（メタデータ） (2024-06-11T16:07:24Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
Feedback Loops With Language Models Drive In-Context Reward Hacking [78.9830398771605]
フィードバックループがコンテキスト内報酬ハッキング(ICRH)を引き起こす可能性があることを示す。 ICRHに繋がる2つのプロセス、すなわちアウトプット・リファインメントとポリシー・リファインメントを同定し研究する。 AI開発が加速するにつれて、フィードバックループの効果が増大する。
論文参考訳（メタデータ） (2024-02-09T18:59:29Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。