論文の概要: TreeDiff: AST-Guided Code Generation with Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2508.01473v2
- Date: Thu, 07 Aug 2025 17:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 14:01:14.003425
- Title: TreeDiff: AST-Guided Code Generation with Diffusion LLMs
- Title(参考訳): TreeDiff: 拡散LDMによるAST-Guidedコード生成
- Authors: Yiming Zeng, Jinghan Cao, Zexin Li, Yiming Chen, Tao Ren, Dawei Xiang, Xidong Wu, Shangqian Gao, Tingting Yu,
- Abstract要約: 本稿では,抽象構文木(AST)の構造的先行を記述プロセスに組み込んだ構文対応拡散フレームワークを提案する。
その結果,構文認識の破損は構文的正当性,再構成精度,不明なコードパターンへの一般化を著しく改善することが示された。
- 参考スコア(独自算出の注目度): 27.111814602726227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion-based language models have opened new possibilities for controllable and bidirectional sequence generation. These models provide an alternative to traditional autoregressive approaches by framing text generation as an iterative denoising process. However, applying diffusion models to structured domains such as source code remains a significant challenge. Programming languages differ from natural language in that they follow strict syntactic and semantic rules, with hierarchical organization that must be preserved for correctness. Standard token-level corruption techniques used during training often ignore this structure, which may hinder the model's ability to learn meaningful representations of code. To address this limitation, we propose a syntax-aware diffusion framework that incorporates structural priors from Abstract Syntax Trees (ASTs) into the denoising process. Instead of masking individual tokens at random, we selectively corrupt syntactically meaningful code spans derived from AST subtrees. This enables the model to reconstruct programs in a way that respects grammatical boundaries and captures long-range dependencies. Experimental results demonstrate that syntax-aware corruption significantly improves syntactic correctness, reconstruction accuracy, and generalization to unseen code patterns. These findings highlight the potential of incorporating structural information into diffusion-based training and suggest that syntax-guided denoising is a promising direction for advancing diffusion-based language models in code generation tasks.
- Abstract(参考訳): 拡散型言語モデルの最近の進歩は、制御可能および双方向のシーケンス生成の新しい可能性を開いた。
これらのモデルは、反復的な記述プロセスとしてテキスト生成をフレーミングすることで、従来の自己回帰アプローチに代わるものを提供する。
しかし、ソースコードのような構造化ドメインに拡散モデルを適用することは大きな課題である。
プログラミング言語は、厳密な構文と意味的な規則に従うという点で自然言語と異なり、階層的な組織は正確性のために保存されなければならない。
トレーニング中に使用される標準的なトークンレベルの汚職テクニックは、しばしばこの構造を無視する。
この制限に対処するため,抽象構文木 (AST) の構造的先行を記述プロセスに組み込んだ構文対応拡散フレームワークを提案する。
個々のトークンをランダムにマスキングする代わりに、ASTサブツリーから派生した構文的に意味のあるコードスパンを選択的に破壊する。
これにより、文法的な境界を尊重し、長い範囲の依存関係をキャプチャする方法でプログラムを再構築することができる。
実験結果から,構文認識の破損は構文的正しさ,再構成精度,未知のコードパターンへの一般化を著しく改善することが示された。
これらの知見は,拡散型学習に構造情報を組み込むことの可能性を強調し,構文誘導型認知は,コード生成タスクにおける拡散型言語モデルの発展に有望な方向であることを示唆している。
関連論文リスト
- Unveiling the Potential of Diffusion Large Language Model in Controllable Generation [11.181783720439563]
拡散モデルは、もともと画像生成のために開発されたもので、自己回帰型大規模言語モデル(LLM)に代わる有望な代替品として登場した。
自己回帰とマスク拡散LDM(dLLMs)を比較した理論的解析法を提案する。
textbfSelf-adaptivetextbfSchema textbfScafは、dLLMが意味的忠実さを維持し、推論を加速しながら構造化された出力を生成する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-07-06T18:41:34Z) - Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Reconsidering Degeneration of Token Embeddings with Definitions for Encoder-based Pre-trained Language Models [20.107727903240065]
本研究では,エンコーダに基づく言語モデルのための等方的および意味論的トークン埋め込みを再構築するために,DefindEMBを提案する。
本実験は,Wiktionaryの定義を応用し,そのような埋め込みを再構築する効果を実証する。
論文 参考訳(メタデータ) (2024-08-02T15:00:05Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
CodeGRAGは、制御フローとそれらのデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミングドメインの知識をよりよく解釈する。
CodeGRAGはLLMのコード生成能力を大幅に改善し、言語間コード生成のパフォーマンス向上も実現している。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - PSSAT: A Perturbed Semantic Structure Awareness Transferring Method for
Perturbation-Robust Slot Filling [27.602336774468]
既存のスロットフィリングモデルの多くは、トレーニングデータからエンティティとそれに対応するコンテキストの固有のパターンを記憶する傾向がある。
本稿では,摂動-ロバストスロット充填モデルの訓練のための意味認識構造伝達法を提案する。
論文 参考訳(メタデータ) (2022-08-24T13:01:00Z) - CDLNet: Robust and Interpretable Denoising Through Deep Convolutional
Dictionary Learning [6.6234935958112295]
unrolled optimization networksは、ディープニューラルネットワークを構築するための解釈可能な代替案を提案する。
提案したモデルが,同様のパラメータ数にスケールすると,最先端のデノイジングモデルに勝ることを示す。
論文 参考訳(メタデータ) (2021-03-05T01:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。