論文の概要: A Simple Approach for Handling Out-of-Vocabulary Identifiers in Deep
Learning for Source Code
- arxiv url: http://arxiv.org/abs/2010.12663v2
- Date: Tue, 27 Apr 2021 15:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 00:11:28.459666
- Title: A Simple Approach for Handling Out-of-Vocabulary Identifiers in Deep
Learning for Source Code
- Title(参考訳): ソースコードの深層学習における語彙外識別子の簡易処理法
- Authors: Nadezhda Chirkova, Sergey Troshin
- Abstract要約: 本稿では,識別子の匿名化に基づくOoV(out-of-vocabulary)識別子の処理手法を提案する。
本手法は前処理ステップとして扱えるため,実装が容易である。
提案手法は,2つのコード処理タスクにおいて,変換器の性能を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 14.904366372190943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an emerging interest in the application of natural language
processing models to source code processing tasks. One of the major problems in
applying deep learning to software engineering is that source code often
contains a lot of rare identifiers, resulting in huge vocabularies. We propose
a simple, yet effective method, based on identifier anonymization, to handle
out-of-vocabulary (OOV) identifiers. Our method can be treated as a
preprocessing step and, therefore, allows for easy implementation. We show that
the proposed OOV anonymization method significantly improves the performance of
the Transformer in two code processing tasks: code completion and bug fixing.
- Abstract(参考訳): 自然言語処理モデルのソースコード処理タスクへの応用への関心が高まっている。
ディープラーニングをソフトウェア工学に適用する際の大きな問題の1つは、ソースコードが稀な識別子を多く含んでいて、結果として巨大な語彙が生まれることだ。
本稿では,識別子の匿名化に基づく簡易かつ効果的な手法を提案し,語彙外識別子(OOV)を扱う。
本手法は前処理ステップとして扱うことができ,実装が容易である。
提案手法は,コード補完とバグ修正という2つのコード処理タスクにおいて,変換器の性能を大幅に向上させる。
関連論文リスト
- Deep Code Search with Naming-Agnostic Contrastive Multi-View Learning [11.337238450492546]
コントラッシブな多視点コード表現学習に基づく命名非依存コード探索法(NACS)を提案する。
NACSは、ソースコードの抽象構文構造の表現であるAST(Abstract Syntax Tree)から変数名に結びついた情報を取り除き、AST構造のみから固有のプロパティを取得することに重点を置いている。
論文 参考訳(メタデータ) (2024-08-18T03:47:34Z) - Linguacodus: A Synergistic Framework for Transformative Code Generation in Machine Learning Pipelines [0.0]
本稿では,自然言語のタスク記述を高レベルなデータ生成命令によってコードに変換する動的パイプラインを提案する。
本稿では、微調整過程を詳述し、自然言語記述を関数型コードに変換する方法について光を当てる。
本稿では,MLタスクの自然な記述を人間のインタラクションを最小限に抑えたコードに変換するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:58:47Z) - Enhancing Source Code Representations for Deep Learning with Static
Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T20:17:04Z) - Exploring Representation-Level Augmentation for Code Search [50.94201167562845]
我々は、データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリの両方)を増強する拡張手法について検討する。
大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-10-21T22:47:37Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Exploiting Method Names to Improve Code Summarization: A Deliberation
Multi-Task Learning Approach [5.577102440028882]
コード要約のための新しいマルチタスク学習(MTL)アプローチを設計する。
まず,メソッド名の生成と情報性予測のタスクを紹介する。
新たな2パス審議機構をmtlアーキテクチャに組み込んで、より一貫性のある中間状態を生成します。
論文 参考訳(メタデータ) (2021-03-21T17:52:21Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z) - DeepSumm -- Deep Code Summaries using Neural Transformer Architecture [8.566457170664927]
我々はソースコード要約の課題を解決するためにニューラルネットワークを用いる。
2.1m以上のコメントとコードの教師付きサンプルで、トレーニング時間を50%以上短縮します。
論文 参考訳(メタデータ) (2020-03-31T22:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。