論文の概要: Evaluating the Use of LLMs for Documentation to Code Traceability
- arxiv url: http://arxiv.org/abs/2506.16440v1
- Date: Thu, 19 Jun 2025 16:18:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.158378
- Title: Evaluating the Use of LLMs for Documentation to Code Traceability
- Title(参考訳): コードトレーサビリティのための文書化におけるLLMの利用評価
- Authors: Ebube Alor, SayedHassan Khatoonabadi, Emad Shihab,
- Abstract要約: 大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。
私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。
その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
- 参考スコア(独自算出の注目度): 3.076436880934678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) offer new potential for automating documentation-to-code traceability, yet their capabilities remain underexplored. We present a comprehensive evaluation of LLMs (Claude 3.5 Sonnet, GPT-4o, and o3-mini) in establishing trace links between various software documentation (including API references and user guides) and source code. We create two novel datasets from two open-source projects (Unity Catalog and Crawl4AI). Through systematic experiments, we assess three key capabilities: (1) trace link identification accuracy, (2) relationship explanation quality, and (3) multi-step chain reconstruction. Results show that the best-performing LLM achieves F1-scores of 79.4% and 80.4% across the two datasets, substantially outperforming our baselines (TF-IDF, BM25, and CodeBERT). While fully correct relationship explanations range from 42.9% to 71.1%, partial accuracy exceeds 97%, indicating that fundamental connections are rarely missed. For multi-step chains, LLMs maintain high endpoint accuracy but vary in capturing precise intermediate links. Error analysis reveals that many false positives stem from naming-based assumptions, phantom links, or overgeneralization of architectural patterns. We demonstrate that task-framing, such as a one-to-many matching strategy, is critical for performance. These findings position LLMs as powerful assistants for trace discovery, but their limitations could necessitate human-in-the-loop tool design and highlight specific error patterns for future research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ドキュメントからコードへのトレーサビリティを自動化する新たな可能性を提供するが、その能力は未調査のままである。
本稿では,LLM(Claude 3.5 Sonnet, GPT-4o, o3-mini)を総合的に評価し,様々なソフトウェアドキュメンテーション(API参照やユーザガイドを含む)とソースコードのトレースリンクを確立する。
オープンソースの2つのプロジェクト(Unity CatalogとCrawl4AI)から、2つの新しいデータセットを作成します。
系統的な実験を通じて,(1)トレースリンク識別精度,(2)関係説明品質,(3)多段階連鎖再構築の3つの重要な機能を評価する。
その結果、最高の性能のLCMは2つのデータセットで79.4%と80.4%のF1スコアを獲得し、ベースライン(TF-IDF、BM25、CodeBERT)を大幅に上回った。
完全な関係説明は42.9%から71.1%の範囲であるが、部分的精度は97%を超え、基本的な接続が失われることは稀である。
マルチステップチェーンでは、LLMは高いエンドポイント精度を維持するが、正確な中間リンクの取得には異なる。
誤り分析は、多くの偽陽性が命名に基づく仮定、ファントムリンク、あるいはアーキテクチャパターンの過一般化に由来することを明らかにしている。
タスク・フレーミング(一対一のマッチング戦略など)がパフォーマンスに不可欠であることを実証する。
これらの知見は、LSMをトレース発見の強力なアシスタントとして位置づけるが、その制限は、将来の研究のためには、人間とループのツール設計を必要とし、特定のエラーパターンを強調させる可能性がある。
関連論文リスト
- Enhancing LLM-Based Code Generation with Complexity Metrics: A Feedback-Driven Approach [6.289275189295223]
本稿では,コード複雑度と大言語モデル生成コードの成功との関係について検討する。
提案手法では,既往の故障した出力からの複雑性メトリクスに基づいて,LCMに正しいコードを生成するための反復的フィードバック手法を提案する。
実験結果から,本手法は特に小型LCMでは顕著な改善が見られた。
論文 参考訳(メタデータ) (2025-05-29T19:06:14Z) - Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - GeoBenchX: Benchmarking LLMs for Multistep Geospatial Tasks [0.0]
Sonnet 3.5 と GPT-4o は最高性能を達成し、Claude モデルは解決可能なタスクに優れていた。
一般的な誤りには、幾何学的関係の誤解、時代遅れの知識への依存、非効率的なデータ操作などがある。
論文 参考訳(メタデータ) (2025-03-23T16:20:14Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Linking Cryptoasset Attribution Tags to Knowledge Graph Entities: An LLM-based Approach [4.348296766881638]
本稿では,帰属タグと知識グラフの概念を関連付けるために,Large Language Models (LLMs) に基づく新しい計算手法を提案する。
このアプローチは、F1スコアのベースラインメソッドを3つのパブリックな属性タグデータセットで37.4%向上させる。
本手法は属性タグの品質を高めるだけでなく,より信頼性の高い法医学的証拠を育成するための青写真としても機能する。
論文 参考訳(メタデータ) (2025-02-12T01:28:40Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。
本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。
我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-11-27T18:04:05Z) - LLMDFA: Analyzing Dataflow in Code with Large Language Models [8.92611389987991]
本稿では,コンパイル不要でカスタマイズ可能なデータフロー解析フレームワークLLMDFAを提案する。
問題をいくつかのサブタスクに分解し、一連の新しい戦略を導入する。
LLMDFAは平均87.10%の精度と80.77%のリコールを達成し、F1スコアを最大0.35に向上させた。
論文 参考訳(メタデータ) (2024-02-16T15:21:35Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。