Fugu-MT 論文翻訳(概要): CLAWSAT: Towards Both Robust and Accurate Code Models

論文の概要: CLAWSAT: Towards Both Robust and Accurate Code Models

arxiv url: http://arxiv.org/abs/2211.11711v2
Date: Tue, 22 Nov 2022 03:38:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-23 16:24:36.980311
Title: CLAWSAT: Towards Both Robust and Accurate Code Models
Title（参考訳）: CLAWSAT:ロバストと正確なコードモデルの両方を目指して
Authors: Jinghan Jia and Shashank Srikant and Tamara Mitrovska and Chuang Gan and Shiyu Chang and Sijia Liu and Una-May O'Reilly
Abstract要約: 比較学習(CL)と逆学習を統合して、コードモデルの堅牢性と精度を協調的に最適化する。私たちの知る限りでは、これはコードモデルにおける(マルチビュー)コードの難読化の堅牢性と正確性について調査し、活用する最初の体系的な研究です。
参考スコア（独自算出の注目度）: 74.57590254102311
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We integrate contrastive learning (CL) with adversarial learning to co-optimize the robustness and accuracy of code models. Different from existing works, we show that code obfuscation, a standard code transformation operation, provides novel means to generate complementary `views' of a code that enable us to achieve both robust and accurate code models. To the best of our knowledge, this is the first systematic study to explore and exploit the robustness and accuracy benefits of (multi-view) code obfuscations in code models. Specifically, we first adopt adversarial codes as robustness-promoting views in CL at the self-supervised pre-training phase. This yields improved robustness and transferability for downstream tasks. Next, at the supervised fine-tuning stage, we show that adversarial training with a proper temporally-staggered schedule of adversarial code generation can further improve robustness and accuracy of the pre-trained code model. Built on the above two modules, we develop CLAWSAT, a novel self-supervised learning (SSL) framework for code by integrating $\underline{\textrm{CL}}$ with $\underline{\textrm{a}}$dversarial vie$\underline{\textrm{w}}$s (CLAW) with $\underline{\textrm{s}}$taggered $\underline{\textrm{a}}$dversarial $\underline{\textrm{t}}$raining (SAT). On evaluating three downstream tasks across Python and Java, we show that CLAWSAT consistently yields the best robustness and accuracy ($\textit{e.g.}$ 11$\%$ in robustness and 6$\%$ in accuracy on the code summarization task in Python). We additionally demonstrate the effectiveness of adversarial learning in CLAW by analyzing the characteristics of the loss landscape and interpretability of the pre-trained models.
Abstract（参考訳）: コントラスト学習(cl)と敵対学習を統合し,コードモデルのロバスト性と正確性を同時に最適化する。既存の作業とは違って、標準的なコード変換操作であるコード難読化は、堅牢で正確なコードモデルの両方を達成することができるコードの補完的な‘ビュー’を生成する新しい手段を提供する。私たちの知る限りでは、これはコードモデルにおける(マルチビュー)コードの難読化の堅牢性と正確性を調査し、活用する最初の体系的な研究です。具体的には,まず,自己指導型事前学習段階におけるCLの頑健性向上の視点として,対向符号を採用する。これにより、下流タスクの堅牢性と転送性が改善される。次に, 教師付き微調整段階において, 適切な時間的重み付きスケジュール付き対人訓練により, 事前学習した符号モデルの堅牢性と精度をさらに向上させることができることを示す。上記の2つのモジュールの上に構築されたCLAWSATは、コードのための新しい自己教師型学習(SSL)フレームワークで、$\underline{\textrm{CL}}$と$\underline{\textrm{a}}$dversarial vie$\underline{\textrm{w}}$s (CLAW)と$\underline{\textrm{s}}$taggered $\underline{\textrm{a}}$dversarial $\underline{\textrm{t}}$raining (SAT)を統合する。 pythonとjavaの3つのダウンストリームタスクの評価において、clawsatは一貫して最高の堅牢性と正確性をもたらすことが示されている(例えば、pythonのコード要約タスクでは11$\%$と6$$$$$$$である)。さらに,学習前モデルの特徴と解釈可能性を分析し,CLAWにおける逆学習の有効性を実証した。

関連論文リスト

CodeBoost: Boosting Code LLMs by Squeezing Knowledge from Code Snippets with RL [28.43882967593511]
コード大言語モデル(LLM)は、効率的で自動化されたコーディングパイプラインを構築するのに欠かせないツールになっている。既存のモデルは、「ヒューマンインストラクション-ファイナル応答」ペアを用いて汎用LLMから強化学習(RL)を用いて後訓練されるのが一般的である。我々は,コードスニペットからLLMを純粋に拡張するフレームワークであるCodeBoostを提案する。
論文参考訳（メタデータ） (2025-08-07T10:31:24Z)
ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。 Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文参考訳（メタデータ） (2025-03-27T23:08:53Z)
Should Code Models Learn Pedagogically? A Preliminary Evaluation of Curriculum Learning for Real-World Software Engineering Tasks [2.0072624123275533]
近年の研究では、合成コードの難易度に基づく漸進的な学習により、カリキュラム学習がコード関連タスクのパフォーマンスを向上させることが示されている。本稿では,コードクローン検出とコード要約のタスクを通じて,事前学習されたコードモデル(CodeT5)がCLの下でどのように学習されるかを検討する。 CodeXGLUEベンチマークに関する実証研究は、これまでの研究と対照的な結果を示し、そのモデルでは破滅的な忘れ込みとショートカット学習の兆候が見られた。
論文参考訳（メタデータ） (2025-02-06T06:33:08Z)
DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs [56.24431208419858]
UnderlinetextbfDirect Preference Learning with only underlinetextbfSelf-Generated underlinetextbfTests and underlinetextbfCode (DSTC)を紹介する。 DSTCは自己生成コードスニペットとテストのみを使用して信頼性の高い選好ペアを構築する。
論文参考訳（メタデータ） (2024-11-20T02:03:16Z)
Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE) PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文参考訳（メタデータ） (2024-07-03T14:34:03Z)
Zero-Shot Code Representation Learning via Prompt Tuning [6.40875582886359]
コード表現を学習するためのゼロショットアプローチであるZecolerを提案する。 Zecolerは、事前訓練されたプログラミング言語モデルの上に構築されている。我々はZecolerを,コードクローン検出,コード検索,メソッド名予測,コード要約,コード生成を含む5つのコードインテリジェンスタスクで評価する。
論文参考訳（メタデータ） (2024-04-13T09:47:07Z)
Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文参考訳（メタデータ） (2024-02-02T22:19:15Z)
Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文参考訳（メタデータ） (2023-07-05T16:58:39Z)
Evaluation of Contrastive Learning with Various Code Representations for Code Clone Detection [3.699097874146491]
コードスニペットの意味的クローンを検出するためのコントラスト学習の評価を行った。 CodeTransformatorを使って、競争力のあるプログラミングソリューションに基づいて、プラジャライズされたコードを模倣するデータセットを作成します。評価の結果,提案手法は各タスクにおいて多種多様な性能を示すが,グラフベースモデルの性能は概して他のモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2022-06-17T12:25:44Z)
CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文参考訳（メタデータ） (2022-01-26T10:54:30Z)
CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained Model [23.947178895479464]
CLSEBERTは,構文強化符号事前学習モデルのための構築学習フレームワークである。事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層について検討する。ひとつは抽象構文木内のノード間のエッジを予測することであり、もう一つはコードトークンの型を予測することである。
論文参考訳（メタデータ） (2021-08-10T10:08:21Z)
Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文参考訳（メタデータ） (2020-07-09T17:59:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。