論文の概要: A Simple Approach for Handling Out-of-Vocabulary Identifiers in Deep
Learning for Source Code
- arxiv url: http://arxiv.org/abs/2010.12663v2
- Date: Tue, 27 Apr 2021 15:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 00:11:28.459666
- Title: A Simple Approach for Handling Out-of-Vocabulary Identifiers in Deep
Learning for Source Code
- Title(参考訳): ソースコードの深層学習における語彙外識別子の簡易処理法
- Authors: Nadezhda Chirkova, Sergey Troshin
- Abstract要約: 本稿では,識別子の匿名化に基づくOoV(out-of-vocabulary)識別子の処理手法を提案する。
本手法は前処理ステップとして扱えるため,実装が容易である。
提案手法は,2つのコード処理タスクにおいて,変換器の性能を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 14.904366372190943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an emerging interest in the application of natural language
processing models to source code processing tasks. One of the major problems in
applying deep learning to software engineering is that source code often
contains a lot of rare identifiers, resulting in huge vocabularies. We propose
a simple, yet effective method, based on identifier anonymization, to handle
out-of-vocabulary (OOV) identifiers. Our method can be treated as a
preprocessing step and, therefore, allows for easy implementation. We show that
the proposed OOV anonymization method significantly improves the performance of
the Transformer in two code processing tasks: code completion and bug fixing.
- Abstract(参考訳): 自然言語処理モデルのソースコード処理タスクへの応用への関心が高まっている。
ディープラーニングをソフトウェア工学に適用する際の大きな問題の1つは、ソースコードが稀な識別子を多く含んでいて、結果として巨大な語彙が生まれることだ。
本稿では,識別子の匿名化に基づく簡易かつ効果的な手法を提案し,語彙外識別子(OOV)を扱う。
本手法は前処理ステップとして扱うことができ,実装が容易である。
提案手法は,コード補完とバグ修正という2つのコード処理タスクにおいて,変換器の性能を大幅に向上させる。
関連論文リスト
- Enhancing LLM Character-Level Manipulation via Divide and Conquer [108.6908427615402]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。
彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。
本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文 参考訳(メタデータ) (2025-02-12T07:37:39Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Deep Code Search with Naming-Agnostic Contrastive Multi-View Learning [11.337238450492546]
コントラッシブな多視点コード表現学習に基づく命名非依存コード探索法(NACS)を提案する。
NACSは、ソースコードの抽象構文構造の表現であるAST(Abstract Syntax Tree)から変数名に結びついた情報を取り除き、AST構造のみから固有のプロパティを取得することに重点を置いている。
論文 参考訳(メタデータ) (2024-08-18T03:47:34Z) - Linguacodus: A Synergistic Framework for Transformative Code Generation in Machine Learning Pipelines [0.0]
本稿では,自然言語のタスク記述を高レベルなデータ生成命令によってコードに変換する動的パイプラインを提案する。
本稿では、微調整過程を詳述し、自然言語記述を関数型コードに変換する方法について光を当てる。
本稿では,MLタスクの自然な記述を人間のインタラクションを最小限に抑えたコードに変換するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:58:47Z) - Enhancing Source Code Representations for Deep Learning with Static
Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T20:17:04Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Exploiting Method Names to Improve Code Summarization: A Deliberation
Multi-Task Learning Approach [5.577102440028882]
コード要約のための新しいマルチタスク学習(MTL)アプローチを設計する。
まず,メソッド名の生成と情報性予測のタスクを紹介する。
新たな2パス審議機構をmtlアーキテクチャに組み込んで、より一貫性のある中間状態を生成します。
論文 参考訳(メタデータ) (2021-03-21T17:52:21Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z) - DeepSumm -- Deep Code Summaries using Neural Transformer Architecture [8.566457170664927]
我々はソースコード要約の課題を解決するためにニューラルネットワークを用いる。
2.1m以上のコメントとコードの教師付きサンプルで、トレーニング時間を50%以上短縮します。
論文 参考訳(メタデータ) (2020-03-31T22:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。