論文の概要: UCRBench: Benchmarking LLMs on Use Case Recovery
- arxiv url: http://arxiv.org/abs/2512.13360v1
- Date: Mon, 15 Dec 2025 14:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.693015
- Title: UCRBench: Benchmarking LLMs on Use Case Recovery
- Title(参考訳): UCRBench: ユースケース回復のためのLLMのベンチマーク
- Authors: Shuyuan Xiao, Yiran Zhang, Weisong Sun, Xiaohong Chen, Yang Liu, Zhi Jin,
- Abstract要約: ユーザゴールとサブファンクションの両方のユースケースを手作業で検証することで構築されたコード整列型ユースケースベンチマークを導入する。
大規模言語モデル(LLM)の最初の体系的な研究を行い,階層的評価プロトコルを提案する。
その結果,LLMはシステム機能を部分的に再構築できるが,その性能はプロジェクトによって大きく異なることがわかった。
- 参考スコア(独自算出の注目度): 42.35653533011503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Use cases are widely employed to specify functional requirements, yet existing benchmarks are scarce and face the risk of being misaligned with actual system behavior, similarly limiting the rigorous evaluation of large language models (LLMs) in generating use cases from source code. We address this gap by introducing code-aligned use case benchmarks, constructed through manual validation of both user-goal and subfunction use cases across nine real-world software projects. Using this benchmark, we conduct the first systematic study of LLMs and propose a hierarchical evaluation protocol that assesses actor correctness, name accuracy, path fidelity, and behavioral coverage. The results show that while LLMs can partially reconstruct system functionality, their performance varies significantly across projects, with particularly noticeable shortcomings in domain-specific and multi-module systems. The models also exhibit high omission rates and struggle to maintain consistent abstraction when aggregating subfunctions into user-goal use cases, highlighting both the potential and current limitations of LLM-based use case reverse engineering.
- Abstract(参考訳): ユースケースは機能要件を特定するために広く採用されているが、既存のベンチマークは乏しく、ソースコードからユースケースを生成する際の大きな言語モデル(LLM)の厳密な評価を制限している。
9つの現実世界のソフトウェアプロジェクトにおいて、ユーザゴールとサブファンクションの両方のユースケースを手作業で検証することで構築されたコード整合ユースケースベンチマークを導入することで、このギャップに対処する。
このベンチマークを用いて,LLMの体系的な研究を行い,俳優の正しさ,名前の正確性,パスの忠実さ,行動カバレッジを評価する階層的評価プロトコルを提案する。
その結果、LLMはシステム機能を部分的に再構築できるが、その性能はプロジェクトによって大きく異なっており、特にドメイン固有のシステムやマルチモジュールシステムの欠点が顕著である。
モデルはまた、ユーザゴールのユースケースにサブファンクションを集約する際に、高い省略率を示し、一貫した抽象化を維持するのに苦労し、LLMベースのユースケースリバースエンジニアリングの可能性と現在の制限の両方を強調している。
関連論文リスト
- On Selecting Few-Shot Examples for LLM-based Code Vulnerability Detection [8.460805514983816]
大規模言語モデル(LLM)は、多くのコーディングタスクにおいて印象的な機能を示している。
コードの脆弱性を検出することは、LLMにとって難しい課題である。
In-context Learning (ICL)は、クエリと同様のサンプルと正しい回答を提供する。
論文 参考訳(メタデータ) (2025-10-31T17:41:58Z) - Evaluating Large Language Models for Functional and Maintainable Code in Industrial Settings: A Case Study at ASML [3.5515013986822073]
本研究は,Aのレベル管理部門と共同で実施した事例研究である。
閉鎖的,高度に専門化されたソフトウェア環境において,機能的,保守性のあるコードを生成する上でのLLMの性能について検討する。
その結果、プロンプト技術とモデルサイズが出力品質に重大な影響を与えることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-15T19:39:26Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - On LLM-Assisted Generation of Smart Contracts from Business Processes [0.08192907805418582]
大規模言語モデル(LLM)は、ソフトウェアの生成方法の現実を変えました。
本稿では、ビジネスプロセス記述からスマートコントラクトコードを生成するためのLCMの使用について探索的研究を行う。
以上の結果から,LLMの性能はスマートコントラクト開発に必要な信頼性に劣ることがわかった。
論文 参考訳(メタデータ) (2025-07-30T20:39:45Z) - CLEAR: Error Analysis via LLM-as-a-Judge Made Easy [9.285203198113917]
LLMに基づくエラー解析のための対話型オープンソースパッケージであるCLEARを紹介する。
CLEARはまずインスタンスごとのテキストフィードバックを生成し、次に一連のシステムレベルのエラー問題を生成し、それぞれの問題の有効性を定量化する。
当社のパッケージはユーザに対して,集計視覚化による包括的なエラー解析を可能にする,インタラクティブなダッシュボードも提供しています。
論文 参考訳(メタデータ) (2025-07-24T13:15:21Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases [0.0]
大規模言語モデル(LLM)は、様々な方法でバイアスを示すことができる。
特定のユースケースで使用するバイアスと公平度の測定値を決定するための,意思決定フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-15T16:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。