論文の概要: Predicting Vulnerability In Large Codebases With Deep Code
Representation
- arxiv url: http://arxiv.org/abs/2004.12783v1
- Date: Fri, 24 Apr 2020 13:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 04:18:40.232893
- Title: Predicting Vulnerability In Large Codebases With Deep Code
Representation
- Title(参考訳): コード表現による大規模コードベースの脆弱性予測
- Authors: Anshul Tanwar, Krishna Sundaresan, Parmesh Ashwath, Prasanna Ganesan,
Sathish Kumar Chandrasekaran, Sriram Ravi
- Abstract要約: ソフトウェアエンジニアは様々なモジュールのコードを書きます。
過去に(異なるモジュールで)修正された同様の問題やバグも、本番コードで再び導入される傾向にある。
ソースコードから生成した抽象構文木(AST)の深部表現とアクティブフィードバックループを用いた,AIに基づく新しいシステムを開発した。
- 参考スコア(独自算出の注目度): 6.357681017646283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently, while software engineers write code for various modules, quite
often, various types of errors - coding, logic, semantic, and others (most of
which are not caught by compilation and other tools) get introduced. Some of
these bugs might be found in the later stage of testing, and many times it is
reported by customers on production code. Companies have to spend many
resources, both money and time in finding and fixing the bugs which would have
been avoided if coding was done right. Also, concealed flaws in software can
lead to security vulnerabilities that potentially allow attackers to compromise
systems and applications. Interestingly, same or similar issues/bugs, which
were fixed in the past (although in different modules), tend to get introduced
in production code again.
We developed a novel AI-based system which uses the deep representation of
Abstract Syntax Tree (AST) created from the source code and also the active
feedback loop to identify and alert the potential bugs that could be caused at
the time of development itself i.e. as the developer is writing new code (logic
and/or function). This tool integrated with IDE as a plugin would work in the
background, point out existing similar functions/code-segments and any
associated bugs in those functions. The tool would enable the developer to
incorporate suggestions right at the time of development, rather than waiting
for UT/QA/customer to raise a defect.
We assessed our tool on both open-source code and also on Cisco codebase for
C and C++ programing language. Our results confirm that deep representation of
source code and the active feedback loop is an assuring approach for predicting
security and other vulnerabilities present in the code.
- Abstract(参考訳): 現在、ソフトウェアエンジニアがさまざまなモジュールのコードを書く一方で、コーディング、ロジック、セマンティクスなど、さまざまなタイプのエラー(そのほとんどはコンパイルや他のツールでは捉えられない)が紹介されることが多い。
これらのバグのいくつかはテストの後半段階にある可能性があり、本番コードで顧客から報告されることが多い。
コーディングを正しく行えば避けられたであろうバグの発見と修正には、お金と時間の両方の多くのリソースが必要になります。
また、ソフトウェアに隠された欠陥は、攻撃者がシステムやアプリケーションを侵害する可能性のあるセキュリティ脆弱性につながる可能性がある。
興味深いことに、過去に(異なるモジュールで)修正された同じまたは類似のイシュー/バグは、再び本番コードに導入される傾向がある。
我々は、ソースコードから生成された抽象構文木(AST)の深い表現とアクティブフィードバックループを使用して、開発者が新しいコード(論理や関数)を書いているときに、開発時に発生する可能性のあるバグを特定し警告する新しいAIベースのシステムを開発した。
プラグインとしてIDEに統合されたこのツールは、バックグラウンドで動作し、既存の類似機能/コードセグメントと関連するバグを指摘します。
このツールは、UT/QA/customerが欠陥を発生させるのを待つのではなく、開発時点で提案を組み込むことができる。
オープンソースコードとC言語とC++用のCiscoコードベースの両方でツールを評価しました。
その結果、ソースコードとアクティブフィードバックループの深い表現は、コードに存在するセキュリティやその他の脆弱性を予測するための確実なアプローチであることを確認した。
関連論文リスト
- Helping LLMs Improve Code Generation Using Feedback from Testing and Static Analysis [3.892345568697058]
大規模言語モデル(LLM)は人工知能分野における最も有望な発展の1つである。
開発者は定期的にLCMにコードスニペットの生成を依頼し、生産性の向上に加えて、オーナシップ、プライバシ、正確性、セキュリティ問題も導入する。
以前の作業では、商用のLLMによって生成されたコードが、脆弱性やバグ、コードの臭いなど、安全でないことが強調されていた。
論文 参考訳(メタデータ) (2024-12-19T13:34:14Z) - RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。
RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。
RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文 参考訳(メタデータ) (2024-11-12T13:30:06Z) - Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - LLM-Powered Code Vulnerability Repair with Reinforcement Learning and
Semantic Reward [3.729516018513228]
我々は,大規模な言語モデルであるCodeGen2を利用した多目的コード脆弱性解析システム texttSecRepair を導入する。
そこで本研究では,LLMを用いた脆弱性解析に適した命令ベースデータセットを提案する。
GitHub上の6つのオープンソースIoTオペレーティングシステムにおいて、ゼロデイとNデイの脆弱性を特定します。
論文 参考訳(メタデータ) (2024-01-07T02:46:39Z) - Assessing the Security of GitHub Copilot Generated Code -- A Targeted
Replication Study [11.644996472213611]
最近の研究は、GitHub CopilotやAmazon CodeWhispererといったAIによるコード生成ツールのセキュリティ問題を調査している。
本稿では、コパイロットのセキュリティの弱点を調査し、コパイロットが提案するコードにいくつかの弱点を発見したPearce et al.の研究を再現する。
我々の結果は、新しいバージョンのCopilotが改良されても、脆弱性のあるコード提案の割合が36.54%から27.25%に減少していることを示している。
論文 参考訳(メタデータ) (2023-11-18T22:12:59Z) - Large Language Models of Code Fail at Completing Code with Potential
Bugs [30.80172644795715]
リアルタイムコード提案に触発されたバグコード補完問題について検討する。
潜在的なバグの存在は、高性能なCode-LLMの生成性能を著しく低下させる。
論文 参考訳(メタデータ) (2023-06-06T06:35:27Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。
トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文 参考訳(メタデータ) (2023-02-14T18:43:34Z) - Chatbots As Fluent Polyglots: Revisiting Breakthrough Code Snippets [0.0]
この研究は、AI駆動のコードアシスタントを使用して、現代技術を形成する影響力のあるコンピュータコードの選択を分析する。
この研究の最初の貢献は、過去50年で最も重要なコードの進歩の半分を調査することであった。
論文 参考訳(メタデータ) (2023-01-05T23:17:17Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。