Fugu-MT 論文翻訳(概要): Encoding Version History Context for Better Code Representation

論文の概要: Encoding Version History Context for Better Code Representation

arxiv url: http://arxiv.org/abs/2402.03773v1
Date: Tue, 6 Feb 2024 07:35:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 16:09:51.977962
Title: Encoding Version History Context for Better Code Representation
Title（参考訳）: より良いコード表現のためのバージョン履歴コンテキストのエンコーディング
Authors: Huy Nguyen, Christoph Treude, Patanamon Thongtanunam
Abstract要約: 本稿では,コードクローンを予測し,コード分類を行うために,バージョン履歴からコンテキスト情報を符号化することの潜在的な利点について,予備的な証拠を示す。技術が一貫して機能するためには、コンテキスト、集約、モデルの異なる組み合わせを使用して、より大きなコードベースに関する包括的な調査を行う必要があります。
参考スコア（独自算出の注目度）: 13.045078976464307
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: With the exponential growth of AI tools that generate source code, understanding software has become crucial. When developers comprehend a program, they may refer to additional contexts to look for information, e.g. program documentation or historical code versions. Therefore, we argue that encoding this additional contextual information could also benefit code representation for deep learning. Recent papers incorporate contextual data (e.g. call hierarchy) into vector representation to address program comprehension problems. This motivates further studies to explore additional contexts, such as version history, to enhance models' understanding of programs. That is, insights from version history enable recognition of patterns in code evolution over time, recurring issues, and the effectiveness of past solutions. Our paper presents preliminary evidence of the potential benefit of encoding contextual information from the version history to predict code clones and perform code classification. We experiment with two representative deep learning models, ASTNN and CodeBERT, to investigate whether combining additional contexts with different aggregations may benefit downstream activities. The experimental result affirms the positive impact of combining version history into source code representation in all scenarios; however, to ensure the technique performs consistently, we need to conduct a holistic investigation on a larger code base using different combinations of contexts, aggregation, and models. Therefore, we propose a research agenda aimed at exploring various aspects of encoding additional context to improve code representation and its optimal utilisation in specific situations.
Abstract（参考訳）: ソースコードを生成するAIツールの指数関数的な成長により、ソフトウェアを理解することが重要になっている。開発者がプログラムを理解すると、プログラムのドキュメントや過去のコードバージョンなどの情報を探すために追加のコンテキストを参照することができる。したがって、この追加の文脈情報を符号化することは、深層学習のためのコード表現にも役立つと論じる。最近の論文では、プログラム理解問題に対処するために、文脈データ(例えば呼び出し階層)をベクトル表現に組み込んでいる。これは、モデルによるプログラムの理解を深めるために、バージョン履歴のような追加のコンテキストを探求するさらなる研究を動機付ける。つまり、バージョン履歴からの洞察によって、コードの進化におけるパターンの認識、繰り返し発生する問題、過去のソリューションの有効性が実現される。本稿では、バージョン履歴から文脈情報をエンコードしてコードクローンを予測し、コード分類を行うことによる潜在的メリットの予備的な証拠を示す。我々は,astnnとcodebertという2つの代表的なディープラーニングモデルを用いて,異なるアグリゲーションによる追加コンテキストの組み合わせが下流アクティビティに有用かどうかを検証した。実験結果は,すべてのシナリオにおいて,バージョン履歴とソースコード表現を組み合わせることによる肯定的な影響を裏付けるものである。しかし,そのテクニックを一貫して実行するためには,コンテキスト,集約,モデルの異なる組み合わせを用いて,より大規模なコードベースを包括的に調査する必要がある。そこで本稿では,コード表現の改善と特定の状況における最適活用を目的とした,追加コンテキストの符号化のさまざまな側面を探求する研究課題を提案する。

関連論文リスト

Bridging Textual-Collaborative Gap through Semantic Codes for Sequential Recommendation [91.13055384151897]
CoCoRecは、シーケンシャルレコメンデーションのための新しいコードベースのテキストおよび協調的セマンティックフュージョン法である。ベクトル量子化手法を用いて,多視点テキスト埋め込みから細粒度セマンティックコードを生成する。テキスト・コラボレーティブ・セマンティクスの融合をさらに促進するために,最適化戦略を導入する。
論文参考訳（メタデータ） (2025-03-15T15:54:44Z)
Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文参考訳（メタデータ） (2024-09-20T14:49:51Z)
Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation [0.24578723416255752]
テキスト・ツー・コード生成の能力について,5つの大言語モデル (LLM) を評価した。 ChatGPTはこれらの典型的なプログラミング課題を、Code Llamaのようなコード特化モデルよりもはるかに効果的に処理することができる。
論文参考訳（メタデータ） (2024-09-06T10:03:49Z)
Enhancing Source Code Representations for Deep Learning with Static Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文参考訳（メタデータ） (2024-02-14T20:17:04Z)
Exploring Representation-Level Augmentation for Code Search [50.94201167562845]
我々は、データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリの両方)を増強する拡張手法について検討する。大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
論文参考訳（メタデータ） (2022-10-21T22:47:37Z)
Adding Context to Source Code Representations for Deep Learning [13.676416860721877]
我々は、ディープラーニングモデルが分析対象のコードに関する追加のコンテキスト情報にアクセスできることは有益であると主張している。本稿では,コード自体の情報とともに,コール階層からコンテキストを符号化することで,最先端のディープラーニングモデルの性能を向上できることを示す。
論文参考訳（メタデータ） (2022-07-30T12:47:32Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)
COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。 COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文参考訳（メタデータ） (2020-10-19T13:53:38Z)
A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文参考訳（メタデータ） (2020-05-01T23:29:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。