Fugu-MT 論文翻訳(概要): Automating the Correctness Assessment of AI-generated Code for Security Contexts

論文の概要: Automating the Correctness Assessment of AI-generated Code for Security Contexts

arxiv url: http://arxiv.org/abs/2310.18834v1
Date: Sat, 28 Oct 2023 22:28:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 16:21:14.923500
Title: Automating the Correctness Assessment of AI-generated Code for Security Contexts
Title（参考訳）: セキュリティコンテキストのためのai生成コードの正確性評価の自動化
Authors: Domenico Cotroneo, Alessio Foggia, Cristina Improta, Pietro Liguori, Roberto Natella
Abstract要約: 本稿では,セキュリティのためにAI生成コードの正当性を評価するために,ACCAという完全自動化手法を提案する。我々はACCAを用いて、セキュリティ指向のアセンブリコードを生成するために訓練された4つの最先端モデルを評価する。実験の結果,本手法は基本解よりも優れ,AI生成コードの正確性は人間による評価と類似していることが判明した。
参考スコア（独自算出の注目度）: 8.592538945535209
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose a fully automated method, named ACCA, to evaluate the correctness of AI-generated code for security purposes. The method uses symbolic execution to assess whether the AI-generated code behaves as a reference implementation. We use ACCA to assess four state-of-the-art models trained to generate security-oriented assembly code and compare the results of the evaluation with different baseline solutions, including output similarity metrics, widely used in the field, and the well-known ChatGPT, the AI-powered language model developed by OpenAI. Our experiments show that our method outperforms the baseline solutions and assesses the correctness of the AI-generated code similar to the human-based evaluation, which is considered the ground truth for the assessment in the field. Moreover, ACCA has a very strong correlation with human evaluation (Pearson's correlation coefficient r=0.84 on average). Finally, since it is a fully automated solution that does not require any human intervention, the proposed method performs the assessment of every code snippet in ~0.17s on average, which is definitely lower than the average time required by human analysts to manually inspect the code, based on our experience.
Abstract（参考訳）: 本稿では,セキュリティのためのAI生成コードの正当性を評価するために,ACCAという完全自動化手法を提案する。この方法はシンボリック実行を使用して、AI生成コードが参照実装として振る舞うかどうかを評価する。セキュリティ指向のアセンブリコードを生成するためにトレーニングされた4つの最先端モデルを評価し、フィールドで広く使用されている出力類似度メトリクスや、openaiが開発したai駆動言語モデルであるchatgptなど、さまざまなベースラインソリューションと比較します。実験の結果,本手法は基礎的解を上回っており,この分野における評価の基礎的真理と考えられるヒューマン・ベース・アセスメントと類似したai生成コードの正確性を評価することができた。さらに、ACCAは人間の評価と非常に強い相関関係を持つ(ピアソンの相関係数 r=0.84 の平均)。最後に、人間による介入を必要としない完全に自動化されたソリューションであるため、提案手法では、平均0.17秒程度で全てのコードスニペットを評価します。

関連論文リスト

Evaluating Generative AI for CS1 Code Grading: Direct vs Reverse Methods [0.0]
本稿では、AIモデルが学生コードに直接ルーブリックを適用する textitDirect と、AIが最初にエラーを修正し、その性質と修正数に基づいてグレードを推定する textitReverse (新たに提案されたアプローチ) の2つのAIベースのグレード技術を比較した。本稿では,ハイブリッドAIグレーティングシステムにおける,それぞれのアプローチの強みと限界,迅速な設計のための実践的考察,今後の方向性について論じる。
論文参考訳（メタデータ） (2025-11-17T01:38:06Z)
CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文参考訳（メタデータ） (2025-08-28T06:03:11Z)
The next question after Turing's question: Introducing the Grow-AI test [51.56484100374058]
本研究は,GROW-AIと呼ばれる人工知能評価の枠組みを拡張することを目的としている。 GROW-AIは、チューリングテストの自然な後継者である"Can Machine grow up? この作品の独創性は、人間の世界から人工知能への「成長」過程の概念的な変換にある。
論文参考訳（メタデータ） (2025-08-22T10:19:42Z)
SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。 SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文参考訳（メタデータ） (2025-01-26T16:45:09Z)
DeVAIC: A Tool for Security Assessment of AI-generated Code [5.383910843560784]
DeVAIC (Detection of Vulnerabilities in AI Generated Code)は、AI生成のPythonコードのセキュリティを評価するツールである。
論文参考訳（メタデータ） (2024-04-11T08:27:23Z)
Does AI help humans make better decisions? A statistical evaluation framework for experimental and observational studies [0.43981305860983716]
我々は、人間とAI、AIの3つの代替意思決定システムのパフォーマンスを比較する方法を示す。リスクアセスメントの勧告は、現金保釈を課す裁判官の決定の分類精度を向上しないことがわかった。
論文参考訳（メタデータ） (2024-03-18T01:04:52Z)
Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities [48.922660354417204]
人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
論文参考訳（メタデータ） (2024-03-17T07:34:12Z)
How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文参考訳（メタデータ） (2024-02-16T15:48:33Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
From Adversarial Arms Race to Model-centric Evaluation: Motivating a Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文参考訳（メタデータ） (2023-05-29T14:55:20Z)
Evaluating Open-QA Evaluation [29.43815593419996]
本研究では,大規模言語モデル(LLM)の事実を直接推定できるオープン質問回答(Open QA)タスクの評価に焦点をあてる。オープンQA内の標準回答に関連するAI生成回答の精度を評価するために,新たなタスクであるQA評価(QA-Eval)とそれに対応するデータセットEVOUNAを導入する。
論文参考訳（メタデータ） (2023-05-21T10:40:55Z)
Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文参考訳（メタデータ） (2023-05-01T02:37:59Z)
Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。これは私たちの最良の知識の一般的な評価の最初の定義です。
論文参考訳（メタデータ） (2022-08-23T09:37:31Z)
The effectiveness of feature attribution methods and its correlation with automatic evaluation scores [19.71360639210631]
320名のレイユーザと11名のエキスパートユーザを対象とした大規模ユーザスタディを初めて実施し、最先端の属性手法の有効性を明らかにする。全体として、機能の属性は、人間が最も近いトレーニングセットの例を示すよりも、驚くほど効果的ではないことがわかりました。
論文参考訳（メタデータ） (2021-05-31T13:23:50Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。