論文の概要: Enhancing Neural Code Representation with Additional Context
- arxiv url: http://arxiv.org/abs/2510.12082v1
- Date: Tue, 14 Oct 2025 02:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.154434
- Title: Enhancing Neural Code Representation with Additional Context
- Title(参考訳): 追加コンテキストによるニューラルコード表現の強化
- Authors: Huy Nguyen, Christoph Treude, Patanamon Thongtanunam,
- Abstract要約: 最近のディープラーニングモデルは一般的に、バージョン履歴や構造的関係といったコンテキスト情報を見渡すために、ソースコードのみに依存しています。
このような文脈信号によるコード表現の強化がニューラルモデルの性能に与える影響について実証的研究を行った。
5つの代表モデル(CodeBERT、GraphCodeBERT、CodeT5、PLBART、ASTNN)は、コード専用およびコンテキスト拡張設定の下で微調整される。
- 参考スコア(独自算出の注目度): 19.42697747205407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated program comprehension underpins many software engineering tasks, from code summarisation to clone detection. Recent deep learning models achieve strong results but typically rely on source code alone, overlooking contextual information such as version history or structural relationships. This limits their ability to capture how code evolves and operates. We conduct an empirical study on how enriching code representations with such contextual signals affects neural model performance on key comprehension tasks. Two downstream tasks, code clone detection and code summarisation, are evaluated using SeSaMe (1,679 Java methods) and CodeSearchNet (63,259 methods). Five representative models (CodeBERT, GraphCodeBERT, CodeT5, PLBART, ASTNN) are fine-tuned under code-only and context-augmented settings. Results show that context generally improves performance: version history consistently boosts clone detection (e.g., CodeT5 +15.92% F1) and summarisation (e.g., GraphCodeBERT +5.56% METEOR), while call-graph effects vary by model and task. Combining multiple contexts yields further gains (up to +21.48% macro-F1). Human evaluation on 100 Java snippets confirms that context-augmented summaries are significantly preferred for Accuracy and Content Adequacy (p <= 0.026; |delta| up to 0.55). These findings highlight the potential of contextual signals to enhance code comprehension and open new directions for optimising contextual encoding in neural SE models.
- Abstract(参考訳): プログラムの自動理解は、コードの要約からクローン検出に至るまで、多くのソフトウェアエンジニアリングタスクを支える。
最近のディープラーニングモデルは強力な結果を得るが、典型的にはソースコードのみに依存し、バージョン履歴や構造的関係といったコンテキスト情報を見渡す。
これにより、コードの進化と動作をキャプチャする能力が制限される。
このような文脈信号によるコード表現の強化が、重要な理解タスクにおけるニューラルモデル性能にどのように影響するかを実証研究する。
SeSaMe (1,679のJavaメソッド)とCodeSearchNet (63,259のメソッド)の2つのダウンストリームタスク、コードクローン検出とコード要約が評価される。
5つの代表モデル(CodeBERT、GraphCodeBERT、CodeT5、PLBART、ASTNN)は、コード専用およびコンテキスト拡張設定の下で微調整される。
バージョン履歴はクローン検出(例: CodeT5 + 15.92% F1)と要約(例: GraphCodeBERT + 5.56% METEOR)を継続的に増加させ、コールグラフ効果はモデルとタスクによって異なる。
複数のコンテキストを組み合わせることでさらに利益を得る(最大21.48%のマクロF1)。
100個のJavaスニペットの人間による評価は、コンテキスト拡張サマリーが精度とコンテンツ精度(p <= 0.026; |delta| から 0.55 まで)にかなり好まれていることを確認する。
これらの知見は、文脈信号がコード理解を強化し、文脈エンコーディングをニューラルネットワークモデルで最適化するための新しい方向を開く可能性を強調している。
関連論文リスト
- On the Effect of Token Merging on Pre-trained Models for Code [11.029842116504726]
本研究では,同じ意味単位に属するサブトークンの隠蔽表現をマージする効果について検討する。
1つは表現を平均化することに基づく戦略であり、もう1つは学習に基づくアプローチを活用する戦略である。
これらの戦略は浮動小数点演算数を1%$から19%$に削減できることを示している。
論文 参考訳(メタデータ) (2025-07-19T00:48:20Z) - ESALE: Enhancing Code-Summary Alignment Learning for Source Code Summarization [21.886950861445122]
コード要約は、与えられたコードスニペットに対して簡潔な自然言語要約を自動的に生成することを目的としている。
本稿では,要約に焦点をあてたタスクに基づいて,コード要約を改善する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T03:06:51Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - What do pre-trained code models know about code? [9.60966128833701]
事前に訓練されたコードモデルを調べるために、プローブと呼ばれる診断タスクを使用します。
BERT(英語で事前学習)、CodeBERT(ソースコードで事前学習)、CodeBERTa(自然言語で事前学習)、GraphCodeBERT(データフローでソースコードで事前学習)について検討した。
論文 参考訳(メタデータ) (2021-08-25T16:20:17Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。