論文の概要: Reverse Engineering User Stories from Code using Large Language Models
- arxiv url: http://arxiv.org/abs/2509.19587v1
- Date: Tue, 23 Sep 2025 21:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.610123
- Title: Reverse Engineering User Stories from Code using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたコードからのリバースエンジニアリングユーザストーリー
- Authors: Mohamed Ouf, Haoyu Li, Michael Zhang, Mariam Guizani,
- Abstract要約: 大規模言語モデル(LLM)がソースコードから直接ユーザストーリーを復元できるかどうかを検討する。
我々は6つのプロンプト戦略にまたがる5つの最先端LCMを評価した。
その結果,F1スコアは平均で最大200 NLOCのコードに対して0.8であることがわかった。
- 参考スコア(独自算出の注目度): 19.450989646157716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User stories are essential in agile development, yet often missing or outdated in legacy and poorly documented systems. We investigate whether large language models (LLMs) can automatically recover user stories directly from source code and how prompt design impacts output quality. Using 1,750 annotated C++ snippets of varying complexity, we evaluate five state-of-the-art LLMs across six prompting strategies. Results show that all models achieve, on average, an F1 score of 0.8 for code up to 200 NLOC. Our findings show that a single illustrative example enables the smallest model (8B) to match the performance of a much larger 70B model. In contrast, structured reasoning via Chain-of-Thought offers only marginal gains, primarily for larger models.
- Abstract(参考訳): ユーザストーリはアジャイル開発には不可欠ですが,レガシでドキュメントの不十分なシステムには欠落したり,時代遅れになったりすることが多いのです。
大規模言語モデル(LLM)がソースコードから直接ユーザストーリーを復元できるかどうか,設計の迅速化がアウトプットの品質に与える影響について検討する。
複雑度の異なる1,750の注釈付きC++スニペットを用いて、6つのプロンプト戦略の5つの最先端LCMを評価した。
その結果,F1スコアは平均で最大200 NLOCのコードに対して0.8であることがわかった。
以上の結果から,最も小さなモデル (8B) が,70Bモデルよりもはるかに大きなモデルの性能に一致することが示唆された。
対照的に、Chain-of-Thoughtによる構造化推論は、主に大きなモデルに対して、限界的な利得しか提供しない。
関連論文リスト
- SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。
既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。
我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-03T23:59:31Z) - Token Level Routing Inference System for Edge Devices [21.721914273034972]
本稿では,クラウドベースの大規模モデルから重要なトークン生成を選択的に参照しながら,小型モデルでデバイス上での推論を可能にする,新しい協調型復号推論システムを提案する。
注目すべきは、M1 MacBook上で0.5Bモデルのみを使用してCommonsenseQAのパフォーマンスを60%向上させ、クラウドの大規模モデルにアップロードされるトークン生成の7%以下であることだ。
論文 参考訳(メタデータ) (2025-04-10T15:54:19Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - Model Hubs and Beyond: Analyzing Model Popularity, Performance, and Documentation [1.2888930658406668]
我々はHugging Face上で500Sentiment Analysisモデルを総合的に評価した。
以上の結果から,モデルの人気度は必ずしも性能と相関しないことが明らかとなった。
モデル作成者の約88%がモデルカードでモデルのパフォーマンスを誇張している。
論文 参考訳(メタデータ) (2025-03-19T14:01:33Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - Small Language Models are Good Too: An Empirical Study of Zero-Shot Classification [4.4467858321751015]
異なるアーキテクチャとスコアリング関数を用いて、77Mから40Bパラメータの言語モデルをベンチマークする。
この結果から、小さなモデルはテキストを効果的に分類し、より大きなテキストに匹敵するか、上回っていることが明らかとなった。
この研究は、大きめが常に良いとは限らないという考えを強調し、リソース効率の良い小さなモデルが特定のデータ分類の課題に対して実行可能なソリューションを提供するかもしれないことを示唆している。
論文 参考訳(メタデータ) (2024-04-17T07:10:28Z) - Identifying and Mitigating Model Failures through Few-shot CLIP-aided
Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。
これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。
本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文 参考訳(メタデータ) (2023-12-09T04:43:49Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。