論文の概要: Code vs Serialized AST Inputs for LLM-Based Code Summarization: An Empirical Study
- arxiv url: http://arxiv.org/abs/2602.06671v1
- Date: Fri, 06 Feb 2026 12:55:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.401237
- Title: Code vs Serialized AST Inputs for LLM-Based Code Summarization: An Empirical Study
- Title(参考訳): LLMに基づくコード要約のための符号対シリアライズされたAST入力:実証的研究
- Authors: Shijia Dong, Haoruo Zhao, Paul Harvey,
- Abstract要約: 本稿では,LLM互換シーケンスに構造情報をエンコードするAST拡張シリアライズ手法であるAST(NIT)を提案する。
CodeXGLUE Pythonデータセット上のLLaMA-3.1-8Bモデルによる実験では、提案されたシリアライズされたASTはLLM入力の長さを減少させ、トレーニング時間を短縮し、既存のアプローチに匹敵する要約品質を達成する。
- 参考スコア(独自算出の注目度): 0.9558392439655014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Summarizing source code into natural language descriptions (code summarization) helps developers better understand program functionality and reduce the burden of software maintenance. Abstract Syntax Trees (ASTs), as opposed to source code, have been shown to improve summarization quality in traditional encoder-decoder-based code summarization models. However, most large language model (LLM)-based code summarization methods rely on raw code or only incorporate partial AST signals, meaning that the potential of complete AST representation has not been fully explored for LLMs. This paper presents AST(NIT), an AST augmentation and serialization method that preserves lexical details and encodes structural information into LLM-compatible sequences. Experiments with the LLaMA-3.1-8B model on the CodeXGLUE Python dataset show that the proposed serialized ASTs reduce the length of LLM inputs, require shorter training times, and achieve summarization quality comparable to existing approaches.
- Abstract(参考訳): ソースコードを自然言語記述(コード要約)に要約することで、開発者はプログラム機能の理解を深め、ソフトウェアのメンテナンスの負担を軽減することができる。
抽象構文木(AST)は、ソースコードとは対照的に、従来のエンコーダデコーダベースのコード要約モデルにおいて、要約品質を改善することが示されている。
しかし、ほとんどの大規模言語モデル(LLM)ベースのコード要約手法は、生のコードに依存したり、部分的なAST信号のみを組み込んだりしているため、完全なAST表現の可能性はLLMで完全には検討されていない。
本稿では,LLM互換シーケンスに構造情報をエンコードするAST拡張シリアライズ手法であるAST(NIT)を提案する。
CodeXGLUE Pythonデータセット上のLLaMA-3.1-8Bモデルによる実験では、提案されたシリアライズされたASTはLLM入力の長さを減少させ、トレーニング時間を短縮し、既存のアプローチに匹敵する要約品質を達成する。
関連論文リスト
- Language Bottleneck Models: A Framework for Interpretable Knowledge Tracing and Beyond [55.984684518346924]
我々は、知識追跡を逆問題として再考する: 過去の回答を説明できる最小限の自然言語要約を学習し、将来の回答を予測できる。
我々のLanguage Bottleneck Model(LBM)は、解釈可能な知識要約を書くエンコーダLLMと、その要約テキストのみを使用して生徒の反応を再構成し予測しなければならないフリーズデコーダLLMで構成されている。
合成算術ベンチマークと大規模Eediデータセットの実験により、LBMは最先端のKT法と直接LLM法の精度に匹敵する一方で、受講者軌道のオーダーを少なくすることを示した。
論文 参考訳(メタデータ) (2025-06-20T13:21:14Z) - Post-Incorporating Code Structural Knowledge into Pretrained Models via ICL for Code Translation [15.73070332657629]
大規模言語モデル(LLM)はソフトウェアマイニングにおいて大きな進歩を遂げた。
ソースコードの構文構造を扱うことは 依然として課題です
本稿では、コード構造知識を事前学習したLLMに組み込むために、インコンテキスト学習(ICL)を用いる。
論文 参考訳(メタデータ) (2025-03-28T10:59:42Z) - Source Code Summarization in the Era of Large Language Models [34.80939934434718]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。
本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文 参考訳(メタデータ) (2024-07-09T05:48:42Z) - InverseCoder: Self-improving Instruction-Tuned Code LLMs with Inverse-Instruct [43.7550233177368]
本稿では、微調整されたオープンソースモデルを用いて、追加データを生成して命令調整データセットを拡張できるかどうかを考察する。
Inverse-Instructは、微調整 LLM を用いて、独自のトレーニングデータセットからコード応答の追加命令を生成するデータ拡張手法である。
論文 参考訳(メタデータ) (2024-07-08T08:00:05Z) - Text-like Encoding of Collaborative Information in Large Language Models for Recommendation [58.87865271693269]
BinLLMはLarge Language Models for Recommendation (LLMRec)とシームレスに連携する新しい手法である。
BinLLMは、外部モデルからの協調的な埋め込みをバイナリシーケンスに変換する。
BinLLMは、ドット決定記法を用いてバイナリシーケンスを圧縮するオプションを提供し、過度に長い長さを避ける。
論文 参考訳(メタデータ) (2024-06-05T12:45:25Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - AST-MHSA : Code Summarization using Multi-Head Self-Attention [1.588193964339148]
本稿では,抽象構文木(AST)から意味情報を抽出するためにマルチヘッドアテンションを用いたAST-MHSAモデルを提案する。
モデルは、コードとサマリーのデータセットに基づいてトレーニングされ、生成されたサマリーとグラウンド・トゥルース・サマリーの間の損失を最小限に抑えるためにパラメータが最適化される。
論文 参考訳(メタデータ) (2023-08-10T15:43:46Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。