論文の概要: Citation-Grounded Code Comprehension: Preventing LLM Hallucination Through Hybrid Retrieval and Graph-Augmented Context
- arxiv url: http://arxiv.org/abs/2512.12117v1
- Date: Sat, 13 Dec 2025 01:17:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.127999
- Title: Citation-Grounded Code Comprehension: Preventing LLM Hallucination Through Hybrid Retrieval and Graph-Augmented Context
- Title(参考訳): Citation-Grounded Code Comprehension:Hybrid RetrievalとGraph-AugmentedコンテキストによるLLM幻覚防止
- Authors: Jahidul Arafat,
- Abstract要約: 本稿では,検証可能な暗黙的コード理解の実現という課題に対処する。
我々は,BM25スパースマッチング,BGE密度埋め込み,Neo4jグラフ拡張を組み合わせたハイブリッド検索システムを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have become essential tools for code comprehension, enabling developers to query unfamiliar codebases through natural language interfaces. However, LLM hallucination, generating plausible but factually incorrect citations to source code, remains a critical barrier to reliable developer assistance. This paper addresses the challenges of achieving verifiable, citation grounded code comprehension through hybrid retrieval and lightweight structural reasoning. Our work is grounded in systematic evaluation across 30 Python repositories with 180 developer queries, comparing retrieval modalities, graph expansion strategies, and citation verification mechanisms. We find that challenges of citation accuracy arise from the interplay between sparse lexical matching, dense semantic similarity, and cross file architectural dependencies. Among these, cross file evidence discovery is the largest contributor to citation completeness, but it is largely overlooked because existing systems rely on pure textual similarity without leveraging code structure. We advocate for citation grounded generation as an architectural principle for code comprehension systems and demonstrate this need by achieving 92 percent citation accuracy with zero hallucinations. Specifically, we develop a hybrid retrieval system combining BM25 sparse matching, BGE dense embeddings, and Neo4j graph expansion via import relationships, which outperforms single mode baselines by 14 to 18 percentage points while discovering cross file evidence missed by pure text similarity in 62 percent of architectural queries.
- Abstract(参考訳): 大規模な言語モデルはコードの理解に欠かせないツールとなり、開発者は自然言語インターフェースを通じて馴染みのないコードベースをクエリできる。
しかし、LLMの幻覚は、ソースコードへのもっともらしいが事実的に誤った引用を生成するものであり、信頼性の高い開発者の支援にとって重要な障壁である。
本稿では,ハイブリット検索と軽量構造推論により,検証可能な暗黙のコード理解を実現する上での課題について論じる。
本研究は,検索モダリティ,グラフ拡張戦略,引用検証機構などを比較し,30のPythonレポジトリを対象に,180の開発者クエリによる体系的評価を行った。
引用精度の課題は、スパース語彙マッチング、密接なセマンティック類似性、およびクロスファイルアーキテクチャの依存関係間の相互作用から生じる。
これらのうち、クロスファイルエビデンス発見は引用完全性に最大の貢献者であるが、既存のシステムはコード構造を活用せずに純粋にテキストの類似性に依存しているため、ほとんど見過ごされている。
我々は、コード理解システムのアーキテクチャ原則として、引用基底生成を提唱し、幻覚をゼロにすることで、92%の引用精度を達成して、このニーズを実証する。
具体的には、BM25スパースマッチング、BGE密度埋め込み、Neo4jグラフ拡張を輸入関係で組み合わせたハイブリッド検索システムを開発し、単一のモードベースラインを14~18ポイント上回り、アーキテクチャクエリの62%で純粋なテキスト類似性に欠けるクロスファイル証拠を発見する。
関連論文リスト
- Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - LLMs Plagiarize: Ensuring Responsible Sourcing of Large Language Model Training Data Through Knowledge Graph Comparison [0.0]
本稿では,大規模言語モデルの訓練や微調整に知識源が用いられているかどうかを評価するための,新たなシステムであるプラジャリズム検出システムを提案する。
現在の手法とは異なり、我々はResource Description Framework(RDF)トリプルを使用して、ソースドキュメントとLLM継続の両方から知識グラフを作成するアプローチを利用する。
これらのグラフは、コサイン類似性を用いてコンテンツに関して分析され、また、同型度を示すグラフ編集距離の正規化版を用いて構造に関して分析される。
論文 参考訳(メタデータ) (2024-07-02T20:49:21Z) - RepoHyper: Search-Expand-Refine on Semantic Graphs for Repository-Level Code Completion [12.173834895070827]
Toolは、リポジトリレベルのコード補完に関連する複雑な問題に対処するために設計されたフレームワークである。
Em Repoレベルセマンティックグラフ(RSG)は、コードリポジトリの広大なコンテキストをカプセル化する、新しいセマンティックグラフ構造である。
評価の結果,ツールがリポジトリレベルのコード補完において,既存のテクニックを著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-10T05:10:34Z) - Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search [7.822427053078387]
Generation-Augmented Retrieval (GAR)フレームワークは、クエリを拡張するための例のコードスニペットを生成する。
本稿では、forスタイルの正規化内でコード(ReCo)を書き換える、シンプルで効果的な方法を提案する。
コードスタイル類似度(Code Style similarity)は、コード内のスタイリスティック類似度を定量化するための最初のメートル法である。
論文 参考訳(メタデータ) (2024-01-09T12:12:50Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - CoCoMIC: Code Completion By Jointly Modeling In-file and Cross-file
Context [82.88371379927112]
予め訓練されたコード LM 上で,ファイル内コンテキストとファイル内コンテキストを協調的に学習するための,クロスファイルコンテキストを組み込んだフレームワークを提案する。
CoCoMICは既存のコードLMを33.94%の精度で改善し、クロスファイルコンテキストが提供されるとコード補完のための識別子マッチングが28.69%増加した。
論文 参考訳(メタデータ) (2022-12-20T05:48:09Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。