論文の概要: GitHub Considered Harmful? Analyzing Open-Source Projects for the
Automatic Generation of Cryptographic API Call Sequences
- arxiv url: http://arxiv.org/abs/2211.13498v1
- Date: Thu, 24 Nov 2022 09:40:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 18:51:30.898189
- Title: GitHub Considered Harmful? Analyzing Open-Source Projects for the
Automatic Generation of Cryptographic API Call Sequences
- Title(参考訳): GitHubは有害か?
暗号化APIコールシーケンスの自動生成のためのオープンソースプロジェクトの分析
- Authors: Catherine Tony, Nicol\'as E. D\'iaz Ferreyra, and Riccardo Scandariato
- Abstract要約: GitHubはコード例のための一般的なデータリポジトリである。
コードを自動生成するAIベースのツールのトレーニングには、継続的に使用されている。
本稿では,不正な暗号API呼び出しシーケンスによって引き起こされる誤用の程度と重大性について検討する。
- 参考スコア(独自算出の注目度): 4.276841620787673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GitHub is a popular data repository for code examples. It is being
continuously used to train several AI-based tools to automatically generate
code. However, the effectiveness of such tools in correctly demonstrating the
usage of cryptographic APIs has not been thoroughly assessed. In this paper, we
investigate the extent and severity of misuses, specifically caused by
incorrect cryptographic API call sequences in GitHub. We also analyze the
suitability of GitHub data to train a learning-based model to generate correct
cryptographic API call sequences. For this, we manually extracted and analyzed
the call sequences from GitHub. Using this data, we augmented an existing
learning-based model called DeepAPI to create two security-specific models that
generate cryptographic API call sequences for a given natural language (NL)
description. Our results indicate that it is imperative to not neglect the
misuses in API call sequences while using data sources like GitHub, to train
models that generate code.
- Abstract(参考訳): GitHubはコード例のための一般的なデータリポジトリである。
コードを自動生成するAIベースのツールのトレーニングには、継続的に使用されている。
しかし、暗号APIの使用を正しく示すためのツールの有効性は十分に評価されていない。
本稿では,GitHubにおける不正な暗号化API呼び出しシーケンスによる誤用の程度と重大性について検討する。
また、学習ベースのモデルをトレーニングし、正しい暗号化API呼び出しシーケンスを生成するGitHubデータの適合性も分析します。
そのため、GitHubから手動で呼び出しシーケンスを抽出し分析しました。
このデータを用いて、DeepAPIと呼ばれる既存の学習モデルを拡張し、与えられた自然言語(NL)記述のための暗号化API呼び出しシーケンスを生成する2つのセキュリティ固有のモデルを作成します。
この結果から,GitHubなどのデータソースを使用してコードを生成するモデルのトレーニングを行う場合,APIコールシーケンスの誤用を無視する必要はないことが示唆された。
関連論文リスト
- A Comprehensive Framework for Evaluating API-oriented Code Generation in Large Language Models [14.665460257371164]
GitHub CopilotやChatGPTのような大規模言語モデル(LLM)は、コード生成の強力なツールとして登場した。
API指向コード生成におけるLLMの機能を評価するために設計されたフレームワークであるAutoAPIEvalを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:22:09Z) - FANTAstic SEquences and Where to Find Them: Faithful and Efficient API Call Generation through State-tracked Constrained Decoding and Reranking [57.53742155914176]
APIコール生成は、大規模言語モデルのツール使用能力の基盤となっている。
既存の教師付きおよびコンテキスト内学習アプローチは、高いトレーニングコスト、低いデータ効率、APIドキュメントとユーザの要求に反する生成APIコールに悩まされる。
本稿では,これらの制約に対処するため,FANTASEと呼ばれる出力側最適化手法を提案する。
論文 参考訳(メタデータ) (2024-07-18T23:44:02Z) - CodeScholar: Growing Idiomatic Code Examples [26.298684667238994]
本稿では,APIメソッドの一般的な使用法を示す慣用的なコード例を生成するツールであるCodeScholarを紹介する。
これには、クエリAPIを慣用的なコード例に成長させる、グラフ上の新しいニューラルガイド付き検索技術が含まれている。
CodeScholarは、開発者だけでなく、LLMを利用したプログラミングアシスタントがプログラム合成設定で正しいコードを生成することも示している。
論文 参考訳(メタデータ) (2023-12-23T04:06:15Z) - Prompt Engineering-assisted Malware Dynamic Analysis Using GPT-4 [45.935748395725206]
GPT-4を用いた即時エンジニアリング支援型マルウェア動的解析手法を提案する。
この方法では、APIシーケンス内の各API呼び出しに対する説明テキストを作成するために、GPT-4が使用される。
BERTはテキストの表現を得るために使われ、そこからAPIシーケンスの表現を導出します。
論文 参考訳(メタデータ) (2023-12-13T17:39:44Z) - Pop Quiz! Do Pre-trained Code Models Possess Knowledge of Correct API
Names? [28.86399157983769]
CodeBERTやCodexのようなトレーニング済みのコードモデルの最近のブレークスルーは、さまざまな下流タスクにおいて、優れたパフォーマンスを示している。
最近の研究によると、最先端の事前訓練されたコードモデルでさえ、コード生成中に正しいAPIを提案することに苦労している。
論文 参考訳(メタデータ) (2023-09-14T15:46:41Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - CodeBERTScore: Evaluating Code Generation with Pretrained Models of Code [75.08995072899594]
コード生成のための評価指標であるCodeBERTScoreを提案する。
CodeBERTScoreは生成されたコードの前に入力された自然言語をエンコードする。
CodeBERTScoreは、既存のすべての指標よりも、人間の嗜好と機能的正しさとの相関性が高いことがわかった。
論文 参考訳(メタデータ) (2023-02-10T22:12:05Z) - On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。
開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。
既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文 参考訳(メタデータ) (2022-04-05T20:33:24Z) - Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$ [118.04625413322827]
$texttt5x$と$texttseqio$は、言語モデルの構築とトレーニングのためのオープンソースのソフトウェアライブラリである。
これらのライブラリは、複数のテラバイトのトレーニングデータを持つデータセット上で、数十億のパラメータを持つモデルをトレーニングするために使用されています。
論文 参考訳(メタデータ) (2022-03-31T17:12:13Z) - Learning to map source code to software vulnerability using
code-as-a-graph [67.62847721118142]
セキュリティの観点からソースコードのニュアンス学習におけるグラフニューラルネットワークの適用性について検討する。
我々は,既存のコード・アズ・フォトや線形シーケンスの符号化手法よりも,脆弱性検出に有効なコード・アズ・グラフの符号化法を示す。
論文 参考訳(メタデータ) (2020-06-15T16:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。