論文の概要: Deep Graph-Language Fusion for Structure-Aware Code Generation
- arxiv url: http://arxiv.org/abs/2605.03689v1
- Date: Tue, 05 May 2026 12:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.931214
- Title: Deep Graph-Language Fusion for Structure-Aware Code Generation
- Title(参考訳): 構造対応コード生成のためのディープグラフ言語融合
- Authors: Mert Tiftikci, Amir Molzam Sharifloo, Mira Mezini,
- Abstract要約: CGFuseは、学習したグラフ機能を事前学習された言語モデルに直接注入することで、グラフ由来の表現のトークンレベル統合を可能にする新しいフレームワークである。
コード生成性能の最大10-16%のBLEUと6-11%のCodeBLEUの改善を示す。
- 参考スコア(独自算出の注目度): 3.441352304853801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained Language Models (PLMs) have the potential to transform software development tasks. However, despite significant advances, current PLMs struggle to capture the structured and relational attributes of code, such as control flow and data dependencies. This limitation is rooted in an architectural mismatch: whereas code structure is best represented by graphs, transformer-based LLMs process input as sequential token patterns and therefore lack explicit structural awareness. While recent research has explored integrating graph-based code representations using techniques like graph feature extraction, retrieval-augmented generation, and prompt engineering, existing approaches suffer from information loss during dense feature extraction or prompt encoding; notably, the potential of deep, token-level fusion of graph features within model internals has not been systematically explored. In this paper, we initiate such an exploration by introducing CGFuse, a novel framework that enables token-level integration of graph-derived representations by infusing learned graph features directly into the intermediate layers of pre-trained language models. CGFuse combines a graph neural network (GNN) with a language model to explicitly preserve and exploit fine-grained structural information from code graphs, including abstract syntax trees and data-flow graphs. We systematically evaluate CGFuse across multiple LLMs, demonstrating up to 10-16% BLEU and 6-11% CodeBLEU improvements in code generation performance. These results highlight the potential of deep graph-PLM integration to advance the field toward more robust, capable AI-driven software development.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、ソフトウェア開発タスクを変革する可能性がある。
しかし、大きな進歩にもかかわらず、現在のPLMは、制御フローやデータ依存など、コードの構造的およびリレーショナルな属性を捉えるのに苦労している。
コード構造はグラフで表されるのに対して、トランスフォーマーベースのLCMプロセスはシーケンシャルトークンパターンとして入力されるため、明示的な構造的認識が欠如している。
近年の研究では、グラフ特徴抽出、検索拡張生成、即時エンジニアリングといった技術を用いたグラフベースのコード表現の統合について検討されているが、既存のアプローチは、高密度な特徴抽出やプロンプトエンコーディングの際の情報損失に悩まされており、特に、モデル内部におけるグラフ特徴の深いトークンレベルの融合の可能性は体系的に検討されていない。
本稿では,学習したグラフ特徴を事前学習された言語モデルの中間層に直接注入することにより,グラフ由来表現のトークンレベル統合を可能にする新しいフレームワークであるCGFuseを導入することにより,そのような探索を開始する。
CGFuseはグラフニューラルネットワーク(GNN)と言語モデルを組み合わせて、抽象構文木やデータフローグラフなど、コードグラフからのきめ細かい構造情報を明示的に保存し、活用する。
コード生成性能は最大10-16%のBLEUと6-11%のCodeBLEUで改善した。
これらの結果は、より堅牢で有能なAI駆動ソフトウェア開発に向けて、ディープグラフ-PLM統合の可能性を浮き彫りにしている。
関連論文リスト
- GILT: An LLM-Free, Tuning-Free Graph Foundational Model for In-Context Learning [50.40400074353263]
グラフニューラルネットワーク(GNN)は、リレーショナルデータを先行する強力なツールであるが、しばしば目に見えないグラフに一般化するのに苦労する。
textbfGraph textbfIn-context textbfL textbfTransformer (GILT)を導入する。
論文 参考訳(メタデータ) (2025-10-06T08:09:15Z) - G-reasoner: Foundation Models for Unified Reasoning over Graph-structured Knowledge [88.82814893945077]
大規模言語モデル(LLM)は複雑な推論において優れているが、静的かつ不完全なパラメトリック知識によって制限される。
最近のグラフ強化RAG (GraphRAG) は、このギャップを補足したグラフを構築し、LLMがそれらを推論できるようにする。
G-reasonerは、様々なグラフ構造化知識を推論するためにグラフと言語基盤モデルを統合した統合フレームワークである。
論文 参考訳(メタデータ) (2025-09-29T04:38:12Z) - Scalability Matters: Overcoming Challenges in InstructGLM with Similarity-Degree-Based Sampling [1.2805157669888096]
提案するSDM-InstructGLMは,GNNに依存することなく,拡張性と効率を向上する命令調整グラフ言語モデル(InstructGLM)フレームワークである。
本手法では,ノード間類似度と次数集中度に基づいてグラフ情報を選択的にサンプリングし,符号化する,類似度に基づくバイアス付きランダムウォーク機構を提案する。
本結果は,LLMのみのグラフ処理の実現可能性を示し,命令ベースの微調整によって最適化されたスケーラブルかつ解釈可能なグラフ言語モデル(GLM)を実現する。
論文 参考訳(メタデータ) (2025-05-02T06:08:21Z) - From Anchors to Answers: A Novel Node Tokenizer for Integrating Graph Structure into Large Language Models [27.353083085394008]
グラフ表現のためのアンカーベース位置符号化方式を備えた新しいフレームワークNT-LLMを提案する。
提案手法では,アンカーとして参照ノードを戦略的に選択し,各ノードの位置をアンカーに対してエンコードし,既存の手法の計算負担を伴わずに重要なトポロジ情報を取得する。
NT-LLMは、位置符号化事前訓練のためのランク保存目的を実装することにより、基本構造解析から複雑な推論シナリオに至るまで、多種多様なグラフタスクにまたがる優れた性能を実現する。
論文 参考訳(メタデータ) (2024-10-14T17:21:57Z) - CONCORD: Towards a DSL for Configurable Graph Code Representation [3.756550107432323]
カスタマイズ可能なグラフ表現を構築するためのドメイン固有言語であるCONCORDを紹介する。
実例として,コードの臭い検出に有効であることを示す。
ConCORDは、研究者がカスタマイズ可能なグラフベースのコード表現を作成し、実験するのに役立つ。
論文 参考訳(メタデータ) (2024-01-31T16:16:48Z) - Graph Language Models [18.75364157933661]
両アプローチの長所を統合し,その短所を緩和する新しいLM型であるグラフ言語モデル(GLM)を導入する。
我々はGLMのアーキテクチャを設計し、グラフバイアスを取り入れ、グラフ内の効果的な知識分布を促進する。
関係分類タスクに関する実証的な評価は、GLM埋め込みが、教師付きおよびゼロショット設定におけるLMベースラインとGNNベースベースラインの両方を上回っていることを示している。
論文 参考訳(メタデータ) (2024-01-13T16:09:49Z) - GraphMAE: Self-Supervised Masked Graph Autoencoders [52.06140191214428]
本稿では,自己教師付きグラフ学習における課題を軽減するマスク付きグラフオートエンコーダGraphMAEを提案する。
我々は3つの異なるグラフ学習タスクに対して、21の公開データセットに関する広範な実験を行った。
その結果,GraphMAEはグラフオートエンコーダであり,設計に注意を払っている。
論文 参考訳(メタデータ) (2022-05-22T11:57:08Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。