論文の概要: DOBF: A Deobfuscation Pre-Training Objective for Programming Languages
- arxiv url: http://arxiv.org/abs/2102.07492v1
- Date: Mon, 15 Feb 2021 11:50:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:49:57.638007
- Title: DOBF: A Deobfuscation Pre-Training Objective for Programming Languages
- Title(参考訳): DOBF: プログラミング言語のための難読化プリトレーニング目標
- Authors: Baptiste Roziere, Marie-Anne Lachaux, Marc Szafraniec and Guillaume
Lample
- Abstract要約: プログラミング言語の構造的側面を活用した新しい事前学習目標、DOBFを紹介します。
DOBFで事前訓練されたモデルが、複数の下流タスクにおける既存のアプローチを大幅に上回ることを示す。
- 参考スコア(独自算出の注目度): 17.239334539543883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in self-supervised learning have dramatically improved the
state of the art on a wide variety of tasks. However, research in language
model pre-training has mostly focused on natural languages, and it is unclear
whether models like BERT and its variants provide the best pre-training when
applied to other modalities, such as source code. In this paper, we introduce a
new pre-training objective, DOBF, that leverages the structural aspect of
programming languages and pre-trains a model to recover the original version of
obfuscated source code. We show that models pre-trained with DOBF significantly
outperform existing approaches on multiple downstream tasks, providing relative
improvements of up to 13% in unsupervised code translation, and 24% in natural
language code search. Incidentally, we found that our pre-trained model is able
to de-obfuscate fully obfuscated source files, and to suggest descriptive
variable names.
- Abstract(参考訳): 自己教師付き学習の最近の進歩は、幅広いタスクにおける芸術の状態を劇的に改善した。
しかし、言語モデル事前学習の研究は主に自然言語に焦点を当てており、BERTやその変種のようなモデルが、ソースコードなどの他のモダリティに適用した場合に最適な事前学習を提供するかどうかは不明である。
本稿では,プログラミング言語の構造的側面を活用した新しい事前学習目標であるdobfを紹介し,難読化ソースコードの原版を復元するためにモデルを事前学習する。
DOBFで事前訓練されたモデルは、複数の下流タスクにおける既存のアプローチを大幅に上回り、教師なしコード翻訳では最大13%、自然言語コード検索では24%の相対的な改善をもたらす。
ちなみに、事前学習したモデルでは、完全に難読化されたソースファイルの分離や、記述型変数名の提案が可能であることがわかった。
関連論文リスト
- Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Summarize and Generate to Back-translate: Unsupervised Translation of
Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。
コード要約と生成による逆翻訳を提案する。
提案手法は最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2022-05-23T08:20:41Z) - Bridging Pre-trained Models and Downstream Tasks for Source Code
Understanding [13.65914588243695]
本稿では,事前学習されたモデルとコード関連タスクをブリッジする手法を提案する。
我々は、下流データの多様性を豊かにする意味保存変換を利用する。
本稿では,既存の事前学習モデルを微調整するために,変換されたデータを手軽に整理するためのカリキュラム学習を紹介する。
論文 参考訳(メタデータ) (2021-12-04T07:21:28Z) - Recent Advances in Natural Language Processing via Large Pre-Trained
Language Models: A Survey [67.82942975834924]
BERTのような大規模で事前訓練された言語モデルは、自然言語処理(NLP)の分野を大きく変えた。
本稿では,これらの大規模言語モデルを用いたNLPタスクの事前学習,微調整,プロンプト,テキスト生成といった手法を用いた最近の研究について紹介する。
論文 参考訳(メタデータ) (2021-11-01T20:08:05Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。