論文の概要: Seamlessly Integrating Tree-Based Positional Embeddings into Transformer Models for Source Code Representation
- arxiv url: http://arxiv.org/abs/2507.04003v1
- Date: Sat, 05 Jul 2025 11:07:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.969343
- Title: Seamlessly Integrating Tree-Based Positional Embeddings into Transformer Models for Source Code Representation
- Title(参考訳): ソースコード表現のための変圧器モデルへのツリーベース位置埋め込みのシームレスな統合
- Authors: Patryk Bartkowiak, Filip Graliński,
- Abstract要約: 抽象構文木(AST)由来の階層的関係を明示的にエンコードする新しい木に基づく位置埋め込み手法を提案する。
これらの階層的な埋め込みはトランスフォーマーアーキテクチャに統合され、特にCodeBERTaモデルを拡張している。
実験の結果,Tree-Enhanced CodeBERTaは損失,精度,F1スコア,精度,リコールの点で,一貫してベースラインモデルを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have demonstrated significant success in various source code representation tasks. Nonetheless, traditional positional embeddings employed by these models inadequately capture the hierarchical structure intrinsic to source code, typically represented as Abstract Syntax Trees (ASTs). To address this, we propose a novel tree-based positional embedding approach that explicitly encodes hierarchical relationships derived from ASTs, including node depth and sibling indices. These hierarchical embeddings are integrated into the transformer architecture, specifically enhancing the CodeBERTa model. We thoroughly evaluate our proposed model through masked language modeling (MLM) pretraining and clone detection fine-tuning tasks. Experimental results indicate that our Tree-Enhanced CodeBERTa consistently surpasses the baseline model in terms of loss, accuracy, F1 score, precision, and recall, emphasizing the importance of incorporating explicit structural information into transformer-based representations of source code.
- Abstract(参考訳): トランスフォーマーベースのモデルは、様々なソースコード表現タスクで大きな成功を収めている。
それでも、これらのモデルで使用される伝統的な位置埋め込みは、ソースコードに固有の階層構造を不適切に捉えておらず、一般的に抽象構文木(AST)として表される。
そこで本研究では,ASTから導出される階層的関係を,ノードの深さや兄弟の指数を含む明示的にエンコードする,木に基づく新しい位置埋め込み手法を提案する。
これらの階層的な埋め込みはトランスフォーマーアーキテクチャに統合され、特にCodeBERTaモデルを拡張している。
マスク付き言語モデリング(MLM)の事前学習とクローン検出による微調整タスクにより,提案モデルの有効性を徹底的に評価する。
実験結果から,提案するTree-Enhanced CodeBERTaは損失,精度,F1スコア,精度,リコールの点において,ソースコードのトランスフォーマーベース表現に明示的な構造情報を組み込むことの重要性を強調した。
関連論文リスト
- Analysing the Behaviour of Tree-Based Neural Networks in Regression Tasks [3.912345988363511]
本稿では、回帰課題の文脈において、木に基づくニューラルネットワークモデルの振る舞いを復号化するための取り組みを行う。
我々は,ツリーベースのCNN,Code2Vec,Transformerベースのメソッドといった確立されたモデルの応用を拡張し,ASTに解析することでソースコードの実行時間を予測する。
提案するデュアルトランスは,多様なデータセットにまたがる顕著な適応性とロバストな性能を示す。
論文 参考訳(メタデータ) (2024-06-17T11:47:14Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - SIT3: Code Summarization with Structure-Induced Transformer [48.000063280183376]
シーケンシャル入力を高効率な構造モデリングでエンコードする構造誘起自己保持に基づく新しいモデルを提案する。
新たに提案したモデルでは,一般的なベンチマークで最新の結果が得られる。
論文 参考訳(メタデータ) (2020-12-29T11:37:43Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。