論文の概要: GramTrans: A Better Code Representation Approach in Code Generation
- arxiv url: http://arxiv.org/abs/2510.02887v1
- Date: Fri, 03 Oct 2025 10:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.351286
- Title: GramTrans: A Better Code Representation Approach in Code Generation
- Title(参考訳): GramTrans: コード生成におけるより良いコード表現アプローチ
- Authors: Zhao Zhang, Qingyuan Liang, Zeyu Sun, Yizhou Chen, Guoqing Wang, Yican Sun, Lu Zhang, Ge Li, Yingfei Xiong,
- Abstract要約: 本稿では,表現が解析し易いほど,モデルの性能が向上する,という予想を提案する。
LL(1)クラス内の表現に文脈自由言語を自動的に変換する一般的なアプローチであるGramTransを提案する。
- 参考スコア(独自算出の注目度): 31.09799107794881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code generation has shown great promise in assisting software development. A fundamental yet underexplored question is how the choice of code representation affects model performance. While existing studies employ various representations, such as treating code as plain text, grammar rule sequences, or syntax tree sequences, they lack a principled understanding of the relationship between parsing difficulty and model effectiveness. This paper proposes a conjecture: the easier a representation is to parse, the better performance the model achieves. We formalize this idea using grammar classes, where representations in simpler classes (e.g., LL(1)) are easier to parse. Through a controlled experiment on a Python-based DSL, we show that parsing difficulty strongly correlates with model performance. Motivated by this finding, we present GramTrans, a general approach that automatically transforms a context-free language into a representation within the LL(1) class. GramTrans introduces a novel hierarchical conflict elimination algorithm, enabling a flexible trade-off between syntactic simplicity and token efficiency. We evaluate GramTrans on both Python and Java using three code generation models: StarCoder 1B, DeepSeek-Coder 1.3B, and Qwen2.5 1.5B. Across multiple benchmarks, GramTrans consistently delivers significant improvements over baseline representations. Furthermore, our analysis of existing representations reconfirms the strong alignment between parsing difficulty and model performance, providing additional support for the conjecture.
- Abstract(参考訳): コード生成はソフトウェア開発を支援する上で大きな可能性を秘めている。
根本的な未調査の問題は、コード表現の選択がモデルのパフォーマンスにどのように影響するかである。
既存の研究では、コードをプレーンテキスト、文法規則シーケンス、構文木シーケンスとして扱うなど、さまざまな表現が採用されているが、解析の難しさとモデルの有効性の関係について、原則的に理解されていない。
本稿では,表現が解析し易いほど,モデルの性能が向上する,という予想を提案する。
より単純なクラス(例えば LL(1))での表現が解析し易い文法クラスを使ってこの考えを定式化する。
Python ベースの DSL 上での制御実験により,解析の難しさがモデル性能と強く相関していることを示す。
この発見に動機づけられたGramTransは、文脈自由言語をLL(1)クラス内の表現に自動的に変換する一般的なアプローチである。
GramTransは、構文的単純さとトークン効率の間の柔軟なトレードオフを可能にする、新しい階層的な競合排除アルゴリズムを導入している。
我々は,3つのコード生成モデル,StarCoder 1B,DeepSeek-Coder 1.3B,Qwen2.5 1.5Bを用いて,PythonおよびJava上でGramTransを評価する。
複数のベンチマークで、GramTransは一貫してベースライン表現よりも大幅に改善されている。
さらに,既存の表現を解析することにより,解析難易度とモデル性能との強い整合性を再確認し,予測のさらなる支持を提供する。
関連論文リスト
- On the Effect of Token Merging on Pre-trained Models for Code [11.029842116504726]
本研究では,同じ意味単位に属するサブトークンの隠蔽表現をマージする効果について検討する。
1つは表現を平均化することに基づく戦略であり、もう1つは学習に基づくアプローチを活用する戦略である。
これらの戦略は浮動小数点演算数を1%$から19%$に削減できることを示している。
論文 参考訳(メタデータ) (2025-07-19T00:48:20Z) - Abstract Syntax Tree for Programming Language Understanding and
Representation: How Far Are We? [23.52632194060246]
プログラミング言語の理解と表現(コード表現学習)は、ソフトウェア工学において常にホットで挑戦的なタスクである。
抽象構文木(AST)は、ソースコードの構文情報を表現し、コード表現学習で広く使われている。
コードトークンシーケンス(略してToken)ベースのコード表現とASTベースのコード表現でトレーニングされた3種類のコード関連タスクのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2023-12-01T08:37:27Z) - Outline, Then Details: Syntactically Guided Coarse-To-Fine Code
Generation [61.50286000143233]
ChainCoderは、Pythonコードを段階的に生成するプログラム合成言語モデルである。
自然言語記述と構文的に整合したI/Oデータサンプルを共同で符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。
論文 参考訳(メタデータ) (2023-04-28T01:47:09Z) - A Syntax-Guided Multi-Task Learning Approach for Turducken-Style Code
Generation [19.489202790935902]
本稿では,構文誘導型マルチタスク学習手法TurduckenGenを提案する。
具体的には、まず最初に型情報をコードトークンに明示的に付加し、構文制約の表現をキャプチャします。
次に,構文制約表現を用いたコード生成を補助タスクとして形式化し,モデルの構文制約学習を可能にする。
論文 参考訳(メタデータ) (2023-03-09T06:22:07Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。