論文の概要: GitHub Considered Harmful? Analyzing Open-Source Projects for the
Automatic Generation of Cryptographic API Call Sequences
- arxiv url: http://arxiv.org/abs/2211.13498v1
- Date: Thu, 24 Nov 2022 09:40:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 18:51:30.898189
- Title: GitHub Considered Harmful? Analyzing Open-Source Projects for the
Automatic Generation of Cryptographic API Call Sequences
- Title(参考訳): GitHubは有害か?
暗号化APIコールシーケンスの自動生成のためのオープンソースプロジェクトの分析
- Authors: Catherine Tony, Nicol\'as E. D\'iaz Ferreyra, and Riccardo Scandariato
- Abstract要約: GitHubはコード例のための一般的なデータリポジトリである。
コードを自動生成するAIベースのツールのトレーニングには、継続的に使用されている。
本稿では,不正な暗号API呼び出しシーケンスによって引き起こされる誤用の程度と重大性について検討する。
- 参考スコア(独自算出の注目度): 4.276841620787673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GitHub is a popular data repository for code examples. It is being
continuously used to train several AI-based tools to automatically generate
code. However, the effectiveness of such tools in correctly demonstrating the
usage of cryptographic APIs has not been thoroughly assessed. In this paper, we
investigate the extent and severity of misuses, specifically caused by
incorrect cryptographic API call sequences in GitHub. We also analyze the
suitability of GitHub data to train a learning-based model to generate correct
cryptographic API call sequences. For this, we manually extracted and analyzed
the call sequences from GitHub. Using this data, we augmented an existing
learning-based model called DeepAPI to create two security-specific models that
generate cryptographic API call sequences for a given natural language (NL)
description. Our results indicate that it is imperative to not neglect the
misuses in API call sequences while using data sources like GitHub, to train
models that generate code.
- Abstract(参考訳): GitHubはコード例のための一般的なデータリポジトリである。
コードを自動生成するAIベースのツールのトレーニングには、継続的に使用されている。
しかし、暗号APIの使用を正しく示すためのツールの有効性は十分に評価されていない。
本稿では,GitHubにおける不正な暗号化API呼び出しシーケンスによる誤用の程度と重大性について検討する。
また、学習ベースのモデルをトレーニングし、正しい暗号化API呼び出しシーケンスを生成するGitHubデータの適合性も分析します。
そのため、GitHubから手動で呼び出しシーケンスを抽出し分析しました。
このデータを用いて、DeepAPIと呼ばれる既存の学習モデルを拡張し、与えられた自然言語(NL)記述のための暗号化API呼び出しシーケンスを生成する2つのセキュリティ固有のモデルを作成します。
この結果から,GitHubなどのデータソースを使用してコードを生成するモデルのトレーニングを行う場合,APIコールシーケンスの誤用を無視する必要はないことが示唆された。
関連論文リスト
- UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。
ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文 参考訳(メタデータ) (2024-12-06T19:00:15Z) - A Comprehensive Framework for Evaluating API-oriented Code Generation in Large Language Models [14.665460257371164]
GitHub CopilotやChatGPTのような大規模言語モデル(LLM)は、コード生成の強力なツールとして登場した。
API指向コード生成におけるLLMの機能を評価するために設計されたフレームワークであるAutoAPIEvalを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:22:09Z) - CodeScholar: Growing Idiomatic Code Examples [26.298684667238994]
本稿では,APIメソッドの一般的な使用法を示す慣用的なコード例を生成するツールであるCodeScholarを紹介する。
これには、クエリAPIを慣用的なコード例に成長させる、グラフ上の新しいニューラルガイド付き検索技術が含まれている。
CodeScholarは、開発者だけでなく、LLMを利用したプログラミングアシスタントがプログラム合成設定で正しいコードを生成することも示している。
論文 参考訳(メタデータ) (2023-12-23T04:06:15Z) - Prompt Engineering-assisted Malware Dynamic Analysis Using GPT-4 [45.935748395725206]
GPT-4を用いた即時エンジニアリング支援型マルウェア動的解析手法を提案する。
この方法では、APIシーケンス内の各API呼び出しに対する説明テキストを作成するために、GPT-4が使用される。
BERTはテキストの表現を得るために使われ、そこからAPIシーケンスの表現を導出します。
論文 参考訳(メタデータ) (2023-12-13T17:39:44Z) - Pop Quiz! Do Pre-trained Code Models Possess Knowledge of Correct API
Names? [28.86399157983769]
CodeBERTやCodexのようなトレーニング済みのコードモデルの最近のブレークスルーは、さまざまな下流タスクにおいて、優れたパフォーマンスを示している。
最近の研究によると、最先端の事前訓練されたコードモデルでさえ、コード生成中に正しいAPIを提案することに苦労している。
論文 参考訳(メタデータ) (2023-09-14T15:46:41Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - CodeBERTScore: Evaluating Code Generation with Pretrained Models of Code [75.08995072899594]
コード生成のための評価指標であるCodeBERTScoreを提案する。
CodeBERTScoreは生成されたコードの前に入力された自然言語をエンコードする。
CodeBERTScoreは、既存のすべての指標よりも、人間の嗜好と機能的正しさとの相関性が高いことがわかった。
論文 参考訳(メタデータ) (2023-02-10T22:12:05Z) - On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。
開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。
既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文 参考訳(メタデータ) (2022-04-05T20:33:24Z) - Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$ [118.04625413322827]
$texttt5x$と$texttseqio$は、言語モデルの構築とトレーニングのためのオープンソースのソフトウェアライブラリである。
これらのライブラリは、複数のテラバイトのトレーニングデータを持つデータセット上で、数十億のパラメータを持つモデルをトレーニングするために使用されています。
論文 参考訳(メタデータ) (2022-03-31T17:12:13Z) - Learning to map source code to software vulnerability using
code-as-a-graph [67.62847721118142]
セキュリティの観点からソースコードのニュアンス学習におけるグラフニューラルネットワークの適用性について検討する。
我々は,既存のコード・アズ・フォトや線形シーケンスの符号化手法よりも,脆弱性検出に有効なコード・アズ・グラフの符号化法を示す。
論文 参考訳(メタデータ) (2020-06-15T16:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。