論文の概要: Automating the Correctness Assessment of AI-generated Code for Security Contexts
- arxiv url: http://arxiv.org/abs/2310.18834v2
- Date: Sat, 8 Jun 2024 08:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 04:47:59.433173
- Title: Automating the Correctness Assessment of AI-generated Code for Security Contexts
- Title(参考訳): セキュリティコンテキストのためのAI生成コードの正確性評価を自動化する
- Authors: Domenico Cotroneo, Alessio Foggia, Cristina Improta, Pietro Liguori, Roberto Natella,
- Abstract要約: 本稿では,セキュリティのためにAI生成コードの正当性を評価するために,ACCAという完全自動化手法を提案する。
我々はACCAを用いて、セキュリティ指向のアセンブリコードを生成するために訓練された4つの最先端モデルを評価する。
実験の結果,本手法は基本解よりも優れ,AI生成コードの正確性は人間による評価と類似していることが判明した。
- 参考スコア(独自算出の注目度): 8.009107843106108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the correctness of code generated by AI is a challenging open problem. In this paper, we propose a fully automated method, named ACCA, to evaluate the correctness of AI-generated code for security purposes. The method uses symbolic execution to assess whether the AI-generated code behaves as a reference implementation. We use ACCA to assess four state-of-the-art models trained to generate security-oriented assembly code and compare the results of the evaluation with different baseline solutions, including output similarity metrics, widely used in the field, and the well-known ChatGPT, the AI-powered language model developed by OpenAI. Our experiments show that our method outperforms the baseline solutions and assesses the correctness of the AI-generated code similar to the human-based evaluation, which is considered the ground truth for the assessment in the field. Moreover, ACCA has a very strong correlation with the human evaluation (Pearson's correlation coefficient r=0.84 on average). Finally, since it is a fully automated solution that does not require any human intervention, the proposed method performs the assessment of every code snippet in ~0.17s on average, which is definitely lower than the average time required by human analysts to manually inspect the code, based on our experience.
- Abstract(参考訳): AIが生成するコードの正確性を評価することは、難しいオープンな問題です。
本稿では,セキュリティのためのAI生成コードの正当性を評価するために,ACCAという完全自動化手法を提案する。
この方法はシンボリック実行を使用して、AI生成コードが参照実装として振る舞うかどうかを評価する。
我々はACCAを用いて、セキュリティ指向のアセンブリコードを生成するために訓練された4つの最先端モデルを評価し、その評価結果を、現場で広く使われている出力類似度指標や、OpenAIが開発したAI駆動言語モデルChatGPTなど、さまざまなベースラインソリューションと比較する。
実験の結果,本手法は基本解よりも優れ,人間による評価と類似したAI生成符号の正しさを評価できることがわかった。
さらに、ACCAは人間の評価と非常に強い相関関係を持つ(ピアソンの相関係数 r=0.84 の平均)。
最後に、人間の介入を必要としない完全に自動化されたソリューションであるため、提案手法は平均0.17秒毎のコードスニペットの評価を行う。
関連論文リスト
- DeVAIC: A Tool for Security Assessment of AI-generated Code [5.383910843560784]
DeVAIC (Detection of Vulnerabilities in AI Generated Code)は、AI生成のPythonコードのセキュリティを評価するツールである。
論文 参考訳(メタデータ) (2024-04-11T08:27:23Z) - Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities [48.922660354417204]
人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。
この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
論文 参考訳(メタデータ) (2024-03-17T07:34:12Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Evaluating Open-QA Evaluation [29.43815593419996]
本研究では,大規模言語モデル(LLM)の事実を直接推定できるオープン質問回答(Open QA)タスクの評価に焦点をあてる。
オープンQA内の標準回答に関連するAI生成回答の精度を評価するために,新たなタスクであるQA評価(QA-Eval)とそれに対応するデータセットEVOUNAを導入する。
論文 参考訳(メタデータ) (2023-05-21T10:40:55Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。
我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。
我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文 参考訳(メタデータ) (2023-02-14T18:59:02Z) - Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。
これは私たちの最良の知識の一般的な評価の最初の定義です。
論文 参考訳(メタデータ) (2022-08-23T09:37:31Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - The effectiveness of feature attribution methods and its correlation
with automatic evaluation scores [19.71360639210631]
320名のレイユーザと11名のエキスパートユーザを対象とした大規模ユーザスタディを初めて実施し、最先端の属性手法の有効性を明らかにする。
全体として、機能の属性は、人間が最も近いトレーニングセットの例を示すよりも、驚くほど効果的ではないことがわかりました。
論文 参考訳(メタデータ) (2021-05-31T13:23:50Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。