論文の概要: Studying Vulnerable Code Entities in R
- arxiv url: http://arxiv.org/abs/2402.04421v1
- Date: Tue, 6 Feb 2024 21:39:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 17:45:21.349472
- Title: Studying Vulnerable Code Entities in R
- Title(参考訳): rで脆弱なコードエンティティを調べる
- Authors: Zixiao Zhao, Millon Madhur Das, Fatemeh H. Fard
- Abstract要約: 本研究では,R のコードエンティティに対する Code-PLM の脆弱性について検討する。
CodeAttackは、コードの構造を使って敵のコードサンプルを生成するブラックボックス攻撃モデルである。
その結果、最も脆弱なコードエンティティは識別子であり、次にRに特有の構文トークンが続くことがわかった。
- 参考スコア(独自算出の注目度): 2.225268436173329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained Code Language Models (Code-PLMs) have shown many advancements and
achieved state-of-the-art results for many software engineering tasks in the
past few years. These models are mainly targeted for popular programming
languages such as Java and Python, leaving out many other ones like R. Though R
has a wide community of developers and users, there is little known about the
applicability of Code-PLMs for R. In this preliminary study, we aim to
investigate the vulnerability of Code-PLMs for code entities in R. For this
purpose, we use an R dataset of code and comment pairs and then apply
CodeAttack, a black-box attack model that uses the structure of code to
generate adversarial code samples. We investigate how the model can attack
different entities in R. This is the first step towards understanding the
importance of R token types, compared to popular programming languages (e.g.,
Java). We limit our study to code summarization. Our results show that the most
vulnerable code entity is the identifier, followed by some syntax tokens
specific to R. The results can shed light on the importance of token types and
help in developing models for code summarization and method name prediction for
the R language.
- Abstract(参考訳): 事前訓練されたコード言語モデル(Code-PLMs)は、過去数年間で多くの進歩を示し、多くのソフトウェアエンジニアリングタスクで最先端の結果を得た。
These models are mainly targeted for popular programming languages such as Java and Python, leaving out many other ones like R. Though R has a wide community of developers and users, there is little known about the applicability of Code-PLMs for R. In this preliminary study, we aim to investigate the vulnerability of Code-PLMs for code entities in R. For this purpose, we use an R dataset of code and comment pairs and then apply CodeAttack, a black-box attack model that uses the structure of code to generate adversarial code samples.
これは、一般的なプログラミング言語(例えばJava)と比較して、Rトークンの型の重要性を理解するための第一歩です。
私たちは研究をコード要約に限定します。
その結果、最も脆弱なコードエンティティが識別子であり、Rに特有の構文トークンが続き、トークン型の重要性が明らかになり、R言語のコード要約とメソッド名予測のためのモデルの開発に役立ちます。
関連論文リスト
- Do Current Language Models Support Code Intelligence for R Programming Language? [2.225268436173329]
コード要約とメソッド名予測の2つのタスクに対して,複数の設定と戦略を用いてコード-PLMを評価する。
以上の結果から, 研究モデルでは, 性能劣化の程度が異なっていたことが示唆された。
Rの二重構文パラダイムは、特にコード要約タスクにおいて、モデルの性能に大きな影響を及ぼした。
論文 参考訳(メタデータ) (2024-10-10T10:23:23Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。
その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。
論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文 参考訳(メタデータ) (2024-04-11T08:30:46Z) - Traces of Memorisation in Large Language Models for Code [16.125924759649106]
コードのための大規模な言語モデルは、一般にインターネットから取り除かれた大量のソースコードコーパスで訓練される。
記憶の速度を、自然言語で訓練された大きな言語モデルと比較する。
コードのための大きな言語モデルは、自然言語のようなデータ抽出攻撃に弱いことが分かりました。
論文 参考訳(メタデータ) (2023-12-18T19:12:58Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained
Model [23.947178895479464]
CLSEBERTは,構文強化符号事前学習モデルのための構築学習フレームワークである。
事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層について検討する。
ひとつは抽象構文木内のノード間のエッジを予測することであり、もう一つはコードトークンの型を予測することである。
論文 参考訳(メタデータ) (2021-08-10T10:08:21Z) - InferCode: Self-Supervised Learning of Code Representations by
Predicting Subtrees [17.461451218469062]
本稿では,自己言語学習機構をソースコードモデルに適用することにより,制限を克服するinfercodeを提案する。
ASTのサブツリーは、人間のラベル付けや高価なグラフ構築のオーバーヘッドなしにコード表現をトレーニングするためのラベルとして、InferCodeで扱われる。
Code2Vec、Code2Seq、ASTNNなど、同じ下流タスクに適用される以前のコード学習技術と比較して、事前に訓練されたInferCodeモデルを使用して、より高いパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-12-13T10:33:41Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。