論文の概要: Encoding Version History Context for Better Code Representation
- arxiv url: http://arxiv.org/abs/2402.03773v1
- Date: Tue, 6 Feb 2024 07:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:09:51.977962
- Title: Encoding Version History Context for Better Code Representation
- Title(参考訳): より良いコード表現のためのバージョン履歴コンテキストのエンコーディング
- Authors: Huy Nguyen, Christoph Treude, Patanamon Thongtanunam
- Abstract要約: 本稿では,コードクローンを予測し,コード分類を行うために,バージョン履歴からコンテキスト情報を符号化することの潜在的な利点について,予備的な証拠を示す。
技術が一貫して機能するためには、コンテキスト、集約、モデルの異なる組み合わせを使用して、より大きなコードベースに関する包括的な調査を行う必要があります。
- 参考スコア(独自算出の注目度): 13.045078976464307
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the exponential growth of AI tools that generate source code,
understanding software has become crucial. When developers comprehend a
program, they may refer to additional contexts to look for information, e.g.
program documentation or historical code versions. Therefore, we argue that
encoding this additional contextual information could also benefit code
representation for deep learning. Recent papers incorporate contextual data
(e.g. call hierarchy) into vector representation to address program
comprehension problems. This motivates further studies to explore additional
contexts, such as version history, to enhance models' understanding of
programs. That is, insights from version history enable recognition of patterns
in code evolution over time, recurring issues, and the effectiveness of past
solutions. Our paper presents preliminary evidence of the potential benefit of
encoding contextual information from the version history to predict code clones
and perform code classification. We experiment with two representative deep
learning models, ASTNN and CodeBERT, to investigate whether combining
additional contexts with different aggregations may benefit downstream
activities. The experimental result affirms the positive impact of combining
version history into source code representation in all scenarios; however, to
ensure the technique performs consistently, we need to conduct a holistic
investigation on a larger code base using different combinations of contexts,
aggregation, and models. Therefore, we propose a research agenda aimed at
exploring various aspects of encoding additional context to improve code
representation and its optimal utilisation in specific situations.
- Abstract(参考訳): ソースコードを生成するAIツールの指数関数的な成長により、ソフトウェアを理解することが重要になっている。
開発者がプログラムを理解すると、プログラムのドキュメントや過去のコードバージョンなどの情報を探すために追加のコンテキストを参照することができる。
したがって、この追加の文脈情報を符号化することは、深層学習のためのコード表現にも役立つと論じる。
最近の論文では、プログラム理解問題に対処するために、文脈データ(例えば呼び出し階層)をベクトル表現に組み込んでいる。
これは、モデルによるプログラムの理解を深めるために、バージョン履歴のような追加のコンテキストを探求するさらなる研究を動機付ける。
つまり、バージョン履歴からの洞察によって、コードの進化におけるパターンの認識、繰り返し発生する問題、過去のソリューションの有効性が実現される。
本稿では、バージョン履歴から文脈情報をエンコードしてコードクローンを予測し、コード分類を行うことによる潜在的メリットの予備的な証拠を示す。
我々は,astnnとcodebertという2つの代表的なディープラーニングモデルを用いて,異なるアグリゲーションによる追加コンテキストの組み合わせが下流アクティビティに有用かどうかを検証した。
実験結果は,すべてのシナリオにおいて,バージョン履歴とソースコード表現を組み合わせることによる肯定的な影響を裏付けるものである。しかし,そのテクニックを一貫して実行するためには,コンテキスト,集約,モデルの異なる組み合わせを用いて,より大規模なコードベースを包括的に調査する必要がある。
そこで本稿では,コード表現の改善と特定の状況における最適活用を目的とした,追加コンテキストの符号化のさまざまな側面を探求する研究課題を提案する。
関連論文リスト
- Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。
コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。
実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文 参考訳(メタデータ) (2024-09-20T14:49:51Z) - Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation [0.24578723416255752]
テキスト・ツー・コード生成の能力について,5つの大言語モデル (LLM) を評価した。
ChatGPTはこれらの典型的なプログラミング課題を、Code Llamaのようなコード特化モデルよりもはるかに効果的に処理することができる。
論文 参考訳(メタデータ) (2024-09-06T10:03:49Z) - Enhancing Source Code Representations for Deep Learning with Static
Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T20:17:04Z) - Exploring Representation-Level Augmentation for Code Search [50.94201167562845]
我々は、データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリの両方)を増強する拡張手法について検討する。
大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-10-21T22:47:37Z) - Adding Context to Source Code Representations for Deep Learning [13.676416860721877]
我々は、ディープラーニングモデルが分析対象のコードに関する追加のコンテキスト情報にアクセスできることは有益であると主張している。
本稿では,コード自体の情報とともに,コール階層からコンテキストを符号化することで,最先端のディープラーニングモデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-07-30T12:47:32Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。