Fugu-MT 論文翻訳(概要): A Simple Approach for Handling Out-of-Vocabulary Identifiers in Deep Learning for Source Code

論文の概要: A Simple Approach for Handling Out-of-Vocabulary Identifiers in Deep Learning for Source Code

arxiv url: http://arxiv.org/abs/2010.12663v2
Date: Tue, 27 Apr 2021 15:28:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 00:11:28.459666
Title: A Simple Approach for Handling Out-of-Vocabulary Identifiers in Deep Learning for Source Code
Title（参考訳）: ソースコードの深層学習における語彙外識別子の簡易処理法
Authors: Nadezhda Chirkova, Sergey Troshin
Abstract要約: 本稿では,識別子の匿名化に基づくOoV(out-of-vocabulary)識別子の処理手法を提案する。本手法は前処理ステップとして扱えるため,実装が容易である。提案手法は,2つのコード処理タスクにおいて,変換器の性能を大幅に向上させることを示す。
参考スコア（独自算出の注目度）: 14.904366372190943
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There is an emerging interest in the application of natural language processing models to source code processing tasks. One of the major problems in applying deep learning to software engineering is that source code often contains a lot of rare identifiers, resulting in huge vocabularies. We propose a simple, yet effective method, based on identifier anonymization, to handle out-of-vocabulary (OOV) identifiers. Our method can be treated as a preprocessing step and, therefore, allows for easy implementation. We show that the proposed OOV anonymization method significantly improves the performance of the Transformer in two code processing tasks: code completion and bug fixing.
Abstract（参考訳）: 自然言語処理モデルのソースコード処理タスクへの応用への関心が高まっている。ディープラーニングをソフトウェア工学に適用する際の大きな問題の1つは、ソースコードが稀な識別子を多く含んでいて、結果として巨大な語彙が生まれることだ。本稿では,識別子の匿名化に基づく簡易かつ効果的な手法を提案し,語彙外識別子(OOV)を扱う。本手法は前処理ステップとして扱うことができ,実装が容易である。提案手法は,コード補完とバグ修正という2つのコード処理タスクにおいて,変換器の性能を大幅に向上させる。

関連論文リスト

Enhancing LLM Character-Level Manipulation via Divide and Conquer [74.55804812450164]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文参考訳（メタデータ） (2025-02-12T07:37:39Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
Deep Code Search with Naming-Agnostic Contrastive Multi-View Learning [11.337238450492546]
コントラッシブな多視点コード表現学習に基づく命名非依存コード探索法(NACS)を提案する。 NACSは、ソースコードの抽象構文構造の表現であるAST(Abstract Syntax Tree)から変数名に結びついた情報を取り除き、AST構造のみから固有のプロパティを取得することに重点を置いている。
論文参考訳（メタデータ） (2024-08-18T03:47:34Z)
Linguacodus: A Synergistic Framework for Transformative Code Generation in Machine Learning Pipelines [0.0]
本稿では,自然言語のタスク記述を高レベルなデータ生成命令によってコードに変換する動的パイプラインを提案する。本稿では、微調整過程を詳述し、自然言語記述を関数型コードに変換する方法について光を当てる。本稿では,MLタスクの自然な記述を人間のインタラクションを最小限に抑えたコードに変換するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-18T08:58:47Z)
Enhancing Source Code Representations for Deep Learning with Static Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文参考訳（メタデータ） (2024-02-14T20:17:04Z)
Exploring Representation-Level Augmentation for Code Search [50.94201167562845]
我々は、データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリの両方)を増強する拡張手法について検討する。大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
論文参考訳（メタデータ） (2022-10-21T22:47:37Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
Exploiting Method Names to Improve Code Summarization: A Deliberation Multi-Task Learning Approach [5.577102440028882]
コード要約のための新しいマルチタスク学習(MTL)アプローチを設計する。まず,メソッド名の生成と情報性予測のタスクを紹介する。新たな2パス審議機構をmtlアーキテクチャに組み込んで、より一貫性のある中間状態を生成します。
論文参考訳（メタデータ） (2021-03-21T17:52:21Z)
Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文参考訳（メタデータ） (2020-09-28T10:28:40Z)
Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文参考訳（メタデータ） (2020-06-22T21:56:14Z)
A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文参考訳（メタデータ） (2020-05-01T23:29:36Z)
DeepSumm -- Deep Code Summaries using Neural Transformer Architecture [8.566457170664927]
我々はソースコード要約の課題を解決するためにニューラルネットワークを用いる。 2.1m以上のコメントとコードの教師付きサンプルで、トレーニング時間を50%以上短縮します。
論文参考訳（メタデータ） (2020-03-31T22:43:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。