論文の概要: DocPrism: Local Categorization and External Filtering to Identify Relevant Code-Documentation Inconsistencies
- arxiv url: http://arxiv.org/abs/2511.00215v1
- Date: Fri, 31 Oct 2025 19:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.675606
- Title: DocPrism: Local Categorization and External Filtering to Identify Relevant Code-Documentation Inconsistencies
- Title(参考訳): DocPrism: 関連コード文書の不整合を識別するための局所分類と外部フィルタリング
- Authors: Xiaomeng Xu, Zahin Wahab, Reid Holmes, Caroline Lemieux,
- Abstract要約: 本稿では,コード文書の不整合検出ツールDocPrismを紹介する。
DocPrismは、標準の大規模言語モデル(LLM)を使用して、矛盾を分析し、説明する。
Python、TypeScript、C++、Javaの幅広い評価において、DocPrismはフラグレート15%を低く保ち、微調整を行わずに0.62の精度を達成している。
- 参考スコア(独自算出の注目度): 5.693844702145728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-documentation inconsistencies are common and undesirable: they can lead to developer misunderstandings and software defects. This paper introduces DocPrism, a multi-language, code-documentation inconsistency detection tool. DocPrism uses a standard large language model (LLM) to analyze and explain inconsistencies. Plain use of LLMs for this task yield unacceptably high false positive rates: LLMs identify natural gaps between high-level documentation and detailed code implementations as inconsistencies. We introduce and apply the Local Categorization, External Filtering (LCEF) methodology to reduce false positives. LCEF relies on the LLM's local completion skills rather than its long-term reasoning skills. In our ablation study, LCEF reduces DocPrism's inconsistency flag rate from 98% to 14%, and increases accuracy from 14% to 94%. On a broad evaluation across Python, TypeScript, C++, and Java, DocPrism maintains a low flag rate of 15%, and achieves a precision of 0.62 without performing any fine-tuning.
- Abstract(参考訳): コードの文書化の不整合は一般的であり、望ましくない。
本稿では,多言語・コード文書不整合検出ツールDocPrismを紹介する。
DocPrismは、標準の大規模言語モデル(LLM)を使用して、矛盾を分析し、説明する。
LLMは、高レベルのドキュメントと詳細なコード実装の間の自然なギャップを、矛盾として識別します。
偽陽性を減らすためにLCEF法を導入,適用した。
LCEFはLLMの長期的推論技術よりも、LLMの局所的な完成技術に依存している。
LCEFはDocPrismの不整合フラグ率を98%から14%に下げ,精度を14%から94%に向上させた。
Python、TypeScript、C++、Javaの幅広い評価において、DocPrismはフラグレート15%を低く保ち、微調整を行わずに0.62の精度を達成している。
関連論文リスト
- Long-Form Information Alignment Evaluation Beyond Atomic Facts [60.25969380388974]
明示的な幻覚を導入することなく、真理のステートメントを"モンテージ"することで、偽りの物語を構築するベンチマークであるMontageLieを紹介します。
本稿では,事実の正確性とイベント順序の整合性を共同で検証する新しいフレームワークであるDoveScoreを提案する。
論文 参考訳(メタデータ) (2025-05-21T17:46:38Z) - METAMON: Finding Inconsistencies between Program Documentation and Behavior using Metamorphic LLM Queries [10.9334354663311]
本稿では,既存の検索ベーステスト生成技術を用いて,現在のプログラム動作をテストケース形式でキャプチャするMETAMONを提案する。
MeTAMONはこのタスクでメタモルフィックテストと自己整合性によってサポートされている。
Defects4J v2.0.1の5つのオープンソースプロジェクトを使って生成された9,482対のコードドキュメンテーションとコードスニペットに対する実証的な評価は、METAMONがコードとドキュメントの不整合を精度0.72、リコール0.48で分類できることを示している。
論文 参考訳(メタデータ) (2025-02-05T00:42:50Z) - Utilizing Precise and Complete Code Context to Guide LLM in Automatic False Positive Mitigation [2.787944528438214]
静的アプリケーションセキュリティテスト(SAST)ツールは、ソフトウェア品質にとって重要なツールであり、開発中の潜在的なコード問題を特定する。
しばしば、手動でレビューし、開発を遅くする誤った肯定的な警告を発生させる。
本稿では,軽量かつ効率的な偽陽性緩和フレームワーク LLM4FPM を提案する。
論文 参考訳(メタデータ) (2024-11-05T13:24:56Z) - Fine-Grained and Multi-Dimensional Metrics for Document-Level Machine Translation [15.987448306012167]
大規模言語モデル(LLM)は機械翻訳(MT)を含む様々なNLPタスクに優れている。
本研究は,文書レベル翻訳(docMT)における命令調整型LLMの本質的能力について検討する。
論文 参考訳(メタデータ) (2024-10-28T11:49:58Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。