論文の概要: On the Impact of Multiple Source Code Representations on Software
Engineering Tasks -- An Empirical Study
- arxiv url: http://arxiv.org/abs/2106.10918v5
- Date: Sun, 24 Dec 2023 17:24:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 23:37:45.388553
- Title: On the Impact of Multiple Source Code Representations on Software
Engineering Tasks -- An Empirical Study
- Title(参考訳): 複数のソースコード表現がソフトウェアエンジニアリングタスクに与える影響について-実証的研究
- Authors: Karthik Chandra Swarna, Noble Saji Mathews, Dheeraj Vagavolu, Sridhar
Chimalakonda
- Abstract要約: 我々は、ASTパスに基づくアプローチを変更し、複数の表現をアテンションベースモデルへの入力として受け入れる。
提案手法は,メソッドナーミング,プログラム分類,クローン検出の3つのタスクで評価する。
- 参考スコア(独自算出の注目度): 4.049850026698639
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Efficiently representing source code is crucial for various software
engineering tasks such as code classification and clone detection. Existing
approaches primarily use Abstract Syntax Tree (AST), and only a few focus on
semantic graphs such as Control Flow Graph (CFG) and Program Dependency Graph
(PDG), which contain information about source code that AST does not. Even
though some works tried to utilize multiple representations, they do not
provide any insights about the costs and benefits of using multiple
representations. The primary goal of this paper is to discuss the implications
of utilizing multiple code representations, specifically AST, CFG, and PDG. We
modify an AST path-based approach to accept multiple representations as input
to an attention-based model. We do this to measure the impact of additional
representations (such as CFG and PDG) over AST. We evaluate our approach on
three tasks: Method Naming, Program Classification, and Clone Detection. Our
approach increases the performance on these tasks by 11% (F1), 15.7%
(Accuracy), and 9.3% (F1), respectively, over the baseline. In addition to the
effect on performance, we discuss timing overheads incurred with multiple
representations. We envision this work providing researchers with a lens to
evaluate combinations of code representations for various tasks.
- Abstract(参考訳): ソースコードの効率的な表現は、コード分類やクローン検出など、さまざまなソフトウェアエンジニアリングタスクに不可欠である。
既存のアプローチでは、主にAST(Abstract Syntax Tree)を使用し、ASTにはないソースコードに関する情報を含む制御フローグラフ(CFG)やプログラム依存性グラフ(PDG)といったセマンティックグラフにのみフォーカスする。
複数の表現を使おうとした作品もあるが、複数の表現を使用することのコストやメリットについての洞察は提供していない。
本稿では,複数のコード表現,特にAST,CFG,PDGを活用することの意味について議論する。
我々は、ASTパスに基づくアプローチを変更し、注意に基づくモデルへの入力として複数の表現を受け入れる。
我々は ast に対する追加表現(cfg や pdg など)の影響を測定するためにこれを行う。
提案手法は,メソッド命名,プログラム分類,クローン検出の3つのタスクで評価する。
提案手法は,これらのタスクの性能を,ベースライン上でそれぞれ11%(F1),15.7%(Accuracy),9.3%(F1)で向上させる。
性能への影響に加えて,複数表現による時間オーバーヘッドについても検討する。
様々なタスクに対するコード表現の組み合わせを評価するためのレンズを研究者に提供する。
関連論文リスト
- FastGAS: Fast Graph-based Annotation Selection for In-Context Learning [53.17606395275021]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)に対して、一連のトレーニングインスタンスをプロンプトとして使用することにより、新しいタスクに対処する権限を与える。
既存の手法では、アノテーションのラベルなし例のサブセットを選択する方法が提案されている。
本稿では,高品質なインスタンスを効率的に識別するグラフベースの選択手法であるFastGASを提案する。
論文 参考訳(メタデータ) (2024-06-06T04:05:54Z) - Abstract Syntax Tree for Programming Language Understanding and
Representation: How Far Are We? [23.52632194060246]
プログラミング言語の理解と表現(コード表現学習)は、ソフトウェア工学において常にホットで挑戦的なタスクである。
抽象構文木(AST)は、ソースコードの構文情報を表現し、コード表現学習で広く使われている。
コードトークンシーケンス(略してToken)ベースのコード表現とASTベースのコード表現でトレーニングされた3種類のコード関連タスクのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2023-12-01T08:37:27Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - A Unified Active Learning Framework for Annotating Graph Data with
Application to Software Source Code Performance Prediction [4.572330678291241]
ソフトウェアの性能予測を専門とする一貫したアクティブラーニングフレームワークを開発した。
能動的・受動的学習に異なるレベルの情報を用いることが与える影響について検討する。
我々のアプローチは、異なるソフトウェアパフォーマンス予測のためのAIモデルへの投資を改善することを目的としています。
論文 参考訳(メタデータ) (2023-04-06T14:00:48Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Learning Program Semantics with Code Representations: An Empirical Study [22.953964699210296]
プログラムセマンティクスの学習は、様々なコード知的なタスクの中核であり、基礎である。
現在の主流のコード表現テクニックを4つのカテゴリに分類する。
我々は,3つの多様で一般的なコード知能タスクにおいて,その性能を評価する。
論文 参考訳(メタデータ) (2022-03-22T14:51:44Z) - Multi-View Graph Representation for Programming Language Processing: An
Investigation into Algorithm Detection [35.81014952109471]
本稿では,マルチビューグラフ(MVG)プログラム表現法を提案する。
MVGはコードのセマンティクスにより多くの注意を払っており、同時に複数のビューとしてデータフローと制御フローの両方を含んでいる。
実験では、MVGは従来の方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-02-25T03:35:45Z) - GN-Transformer: Fusing Sequence and Graph Representation for Improved
Code Summarization [0.0]
融合シーケンスとグラフのモダリティに基づいてエンドツーエンドの学習を行う新しい手法であるGN-Transformerを提案する。
提案手法は,2つのコード要約データセットと3つの自動コード要約メトリクスにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-17T02:51:37Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。