論文の概要: CLAWSAT: Towards Both Robust and Accurate Code Models
- arxiv url: http://arxiv.org/abs/2211.11711v2
- Date: Tue, 22 Nov 2022 03:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 16:24:36.980311
- Title: CLAWSAT: Towards Both Robust and Accurate Code Models
- Title(参考訳): CLAWSAT:ロバストと正確なコードモデルの両方を目指して
- Authors: Jinghan Jia and Shashank Srikant and Tamara Mitrovska and Chuang Gan
and Shiyu Chang and Sijia Liu and Una-May O'Reilly
- Abstract要約: 比較学習(CL)と逆学習を統合して、コードモデルの堅牢性と精度を協調的に最適化する。
私たちの知る限りでは、これはコードモデルにおける(マルチビュー)コードの難読化の堅牢性と正確性について調査し、活用する最初の体系的な研究です。
- 参考スコア(独自算出の注目度): 74.57590254102311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We integrate contrastive learning (CL) with adversarial learning to
co-optimize the robustness and accuracy of code models. Different from existing
works, we show that code obfuscation, a standard code transformation operation,
provides novel means to generate complementary `views' of a code that enable us
to achieve both robust and accurate code models. To the best of our knowledge,
this is the first systematic study to explore and exploit the robustness and
accuracy benefits of (multi-view) code obfuscations in code models.
Specifically, we first adopt adversarial codes as robustness-promoting views in
CL at the self-supervised pre-training phase. This yields improved robustness
and transferability for downstream tasks. Next, at the supervised fine-tuning
stage, we show that adversarial training with a proper temporally-staggered
schedule of adversarial code generation can further improve robustness and
accuracy of the pre-trained code model. Built on the above two modules, we
develop CLAWSAT, a novel self-supervised learning (SSL) framework for code by
integrating $\underline{\textrm{CL}}$ with $\underline{\textrm{a}}$dversarial
vie$\underline{\textrm{w}}$s (CLAW) with $\underline{\textrm{s}}$taggered
$\underline{\textrm{a}}$dversarial $\underline{\textrm{t}}$raining (SAT). On
evaluating three downstream tasks across Python and Java, we show that CLAWSAT
consistently yields the best robustness and accuracy ($\textit{e.g.}$ 11$\%$ in
robustness and 6$\%$ in accuracy on the code summarization task in Python). We
additionally demonstrate the effectiveness of adversarial learning in CLAW by
analyzing the characteristics of the loss landscape and interpretability of the
pre-trained models.
- Abstract(参考訳): コントラスト学習(cl)と敵対学習を統合し,コードモデルのロバスト性と正確性を同時に最適化する。
既存の作業とは違って、標準的なコード変換操作であるコード難読化は、堅牢で正確なコードモデルの両方を達成することができるコードの補完的な‘ビュー’を生成する新しい手段を提供する。
私たちの知る限りでは、これはコードモデルにおける(マルチビュー)コードの難読化の堅牢性と正確性を調査し、活用する最初の体系的な研究です。
具体的には,まず,自己指導型事前学習段階におけるCLの頑健性向上の視点として,対向符号を採用する。
これにより、下流タスクの堅牢性と転送性が改善される。
次に, 教師付き微調整段階において, 適切な時間的重み付きスケジュール付き対人訓練により, 事前学習した符号モデルの堅牢性と精度をさらに向上させることができることを示す。
上記の2つのモジュールの上に構築されたCLAWSATは、コードのための新しい自己教師型学習(SSL)フレームワークで、$\underline{\textrm{CL}}$と$\underline{\textrm{a}}$dversarial vie$\underline{\textrm{w}}$s (CLAW)と$\underline{\textrm{s}}$taggered $\underline{\textrm{a}}$dversarial $\underline{\textrm{t}}$raining (SAT)を統合する。
pythonとjavaの3つのダウンストリームタスクの評価において、clawsatは一貫して最高の堅牢性と正確性をもたらすことが示されている(例えば、pythonのコード要約タスクでは11$\%$と6$$$$$$$である)。
さらに,学習前モデルの特徴と解釈可能性を分析し,CLAWにおける逆学習の有効性を実証した。
関連論文リスト
- DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs [56.24431208419858]
UnderlinetextbfDirect Preference Learning with only underlinetextbfSelf-Generated underlinetextbfTests and underlinetextbfCode (DSTC)を紹介する。
DSTCは自己生成コードスニペットとテストのみを使用して信頼性の高い選好ペアを構築する。
論文 参考訳(メタデータ) (2024-11-20T02:03:16Z) - Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - Zero-Shot Code Representation Learning via Prompt Tuning [6.40875582886359]
コード表現を学習するためのゼロショットアプローチであるZecolerを提案する。
Zecolerは、事前訓練されたプログラミング言語モデルの上に構築されている。
我々はZecolerを,コードクローン検出,コード検索,メソッド名予測,コード要約,コード生成を含む5つのコードインテリジェンスタスクで評価する。
論文 参考訳(メタデータ) (2024-04-13T09:47:07Z) - Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。
コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。
即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文 参考訳(メタデータ) (2023-07-05T16:58:39Z) - Evaluation of Contrastive Learning with Various Code Representations for
Code Clone Detection [3.699097874146491]
コードスニペットの意味的クローンを検出するためのコントラスト学習の評価を行った。
CodeTransformatorを使って、競争力のあるプログラミングソリューションに基づいて、プラジャライズされたコードを模倣するデータセットを作成します。
評価の結果,提案手法は各タスクにおいて多種多様な性能を示すが,グラフベースモデルの性能は概して他のモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-17T12:25:44Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained
Model [23.947178895479464]
CLSEBERTは,構文強化符号事前学習モデルのための構築学習フレームワークである。
事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層について検討する。
ひとつは抽象構文木内のノード間のエッジを予測することであり、もう一つはコードトークンの型を予測することである。
論文 参考訳(メタデータ) (2021-08-10T10:08:21Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。