論文の概要: SemanticForge: Repository-Level Code Generation through Semantic Knowledge Graphs and Constraint Satisfaction
- arxiv url: http://arxiv.org/abs/2511.07584v1
- Date: Wed, 12 Nov 2025 01:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.391961
- Title: SemanticForge: Repository-Level Code Generation through Semantic Knowledge Graphs and Constraint Satisfaction
- Title(参考訳): SemanticForge: セマンティック知識グラフと制約満足度によるリポジトリレベルのコード生成
- Authors: Wuyang Zhang, Chenkai Zhang, Zhen Luo, Jianming Ma, Wangming Yuan, Chuqiao Gu, Chenwei Feng,
- Abstract要約: 大規模言語モデル(LLM)は、自動コード生成を可能にすることでソフトウェア開発を変革しているが、実際的なデプロイメントを制限する体系的なエラーに悩まされることも多い。
我々は,テキスト的幻覚(誤った制御/データフロー推論)とテキスト的幻覚(型ミスマッチ,署名違反,アーキテクチャ上の矛盾)の2つの重要な障害モードを特定した。
本稿では,意味的に認識されたコード生成のための基本的なアルゴリズムの進歩を4つ導入する textbfSemanticForge を提案する。
- 参考スコア(独自算出の注目度): 7.46733617565624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have transformed software development by enabling automated code generation, yet they frequently suffer from systematic errors that limit practical deployment. We identify two critical failure modes: \textit{logical hallucination} (incorrect control/data-flow reasoning) and \textit{schematic hallucination} (type mismatches, signature violations, and architectural inconsistencies). These errors stem from the absence of explicit, queryable representations of repository-wide semantics. This paper presents \textbf{SemanticForge}, which introduces four fundamental algorithmic advances for semantically-aware code generation: (1) a novel automatic reconciliation algorithm for dual static-dynamic knowledge graphs, unifying compile-time and runtime program semantics; (2) a neural approach that learns to generate structured graph queries from natural language, achieving 73\% precision versus 51\% for traditional retrieval; (3) a novel beam search algorithm with integrated SMT solving, enabling real-time constraint verification during generation rather than post-hoc validation; and (4) an incremental maintenance algorithm that updates knowledge graphs in $O(|ΔR| \cdot \log n)$ time while maintaining semantic equivalence.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動コード生成を可能にすることでソフトウェア開発を変革しているが、実際的なデプロイメントを制限する体系的なエラーに悩まされることも多い。
そこで我々は,<textit{logical Hallucination>(誤った制御/データフロー推論)と<textit{schematic Hallucination>(型ミスマッチ,署名違反,アーキテクチャ不整合)の2つの重要な障害モードを特定した。
これらのエラーは、リポジトリ全体のセマンティクスの明示的でクエリ可能な表現がないことに起因する。
本稿では,(1)コンパイル時と実行時プログラムのセマンティクスを統一する2つの静的な知識グラフのための新しい自動整合アルゴリズム,(2)自然言語から構造化グラフクエリを生成するニューラルネットワーク,73 %の精度と51 %の精度で従来型検索を実現すること,(3)SMTの解法を組み込んだ新しいビーム探索アルゴリズム,(3)ポストホック検証ではなく,生成時のリアルタイム制約検証を可能にすること,(4)$O(|ΔR| \cdot \log n)の知識グラフを更新する漸進的メンテナンスアルゴリズムを提案する。
関連論文リスト
- GRAD: Graph-Retrieved Adaptive Decoding for Hallucination Mitigation [12.69955054591315]
コーパス由来の証拠を再学習せずに生成する復号時間法であるグラフ検索適応復号法(GRAD)を導入する。
3つのモデルと様々な質問応答ベンチマークで、GRADは一貫してベースラインを超えている。
GRADは、コントラストデコーディングやナレッジグラフの拡張に対して、軽量でプラグアンドプレイの代替手段を提供する。
論文 参考訳(メタデータ) (2025-11-05T22:51:16Z) - SLICET5: Static Program Slicing using Language Models with Copy Mechanism and Constrained Decoding [13.61350801915956]
静的プログラムスライシングはソフトウェア工学の基本的な技術である。
ourtoolは静的プログラムスライシングをシーケンス・ツー・シーケンスタスクとして再構成する新しいスライシングフレームワークである。
ourtoolは、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-09-22T03:14:47Z) - Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [79.75818239774952]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。
Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。
本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文 参考訳(メタデータ) (2025-05-22T05:15:27Z) - DeepRTL: Bridging Verilog Understanding and Generation with a Unified Representation Model [13.532046953850902]
We present DeepRTL, a unified representation model that is excs in both Verilog understanding and generation。
CodeT5+に基づいて、DeepRTLは、Verilogコードをリッチでマルチレベルな自然言語記述と整合させる包括的なデータセットに基づいて微調整されている。
我々はVerilog理解のための最初のベンチマークを導入し、埋め込み類似性とGPTスコアを適用してモデルの理解能力を評価する。
論文 参考訳(メタデータ) (2025-02-20T11:07:55Z) - NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition [80.22784377150465]
手書き数学的表現認識(HMER)は、文書理解における多種多様な応用のために、パターン認識において大きな注目を集めている。
本稿では,HMERのためのボトムアップ非自己回帰モデリング手法であるNAMERを初めて構築する。
NAMERは、VAT(Visual Aware Tokenizer)とPGD(Parallel Graph)を備える。
論文 参考訳(メタデータ) (2024-07-16T04:52:39Z) - Momentum Decoding: Open-ended Text Generation As Graph Exploration [49.812280360794894]
自動回帰言語モデル(LM)を用いたオープンエンドテキスト生成は、自然言語処理における中核的なタスクの1つである。
我々は、新しい視点から、すなわち、有向グラフ内の探索プロセスとして、オープンエンドテキスト生成を定式化する。
本稿では,新しい復号法であるtextitmomentum decodingを提案する。
論文 参考訳(メタデータ) (2022-12-05T11:16:47Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Structure-Augmented Text Representation Learning for Efficient Knowledge
Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。
これらのグラフは通常不完全であり、自動補完を促す。
グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。
テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文 参考訳(メタデータ) (2020-04-30T13:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。