論文の概要: FLAG: Finding Line Anomalies (in code) with Generative AI
- arxiv url: http://arxiv.org/abs/2306.12643v1
- Date: Thu, 22 Jun 2023 03:04:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 15:34:36.417879
- Title: FLAG: Finding Line Anomalies (in code) with Generative AI
- Title(参考訳): FLAG:ジェネレーティブAIでライン異常(コード内で)を見つける
- Authors: Baleegh Ahmad, Benjamin Tan, Ramesh Karri, Hammond Pearce
- Abstract要約: FLAGは、生成AIの語彙能力、特にLarge Language Models(LLM)に基づいている。
C、Python、Verilogで121のベンチマークを使用します。
FLAGは101の欠陥を識別でき、検索スペースを12-17%に削減できる。
- 参考スコア(独自算出の注目度): 18.612900041820875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code contains security and functional bugs. The process of identifying and
localizing them is difficult and relies on human labor. In this work, we
present a novel approach (FLAG) to assist human debuggers. FLAG is based on the
lexical capabilities of generative AI, specifically, Large Language Models
(LLMs). Here, we input a code file then extract and regenerate each line within
that file for self-comparison. By comparing the original code with an
LLM-generated alternative, we can flag notable differences as anomalies for
further inspection, with features such as distance from comments and LLM
confidence also aiding this classification. This reduces the inspection search
space for the designer. Unlike other automated approaches in this area, FLAG is
language-agnostic, can work on incomplete (and even non-compiling) code and
requires no creation of security properties, functional tests or definition of
rules. In this work, we explore the features that help LLMs in this
classification and evaluate the performance of FLAG on known bugs. We use 121
benchmarks across C, Python and Verilog; with each benchmark containing a known
security or functional weakness. We conduct the experiments using two state of
the art LLMs in OpenAI's code-davinci-002 and gpt-3.5-turbo, but our approach
may be used by other models. FLAG can identify 101 of the defects and helps
reduce the search space to 12-17% of source code.
- Abstract(参考訳): コードにはセキュリティと機能的なバグが含まれている。
それらの特定とローカライゼーションのプロセスは困難であり、人間の労働に依存している。
本研究では,ヒトデバッガを支援する新しいアプローチ (FLAG) を提案する。
FLAGは、生成AI、特にLarge Language Models(LLM)の語彙能力に基づいている。
ここでは、コードファイルを入力し、そのファイル内の各行を抽出して再生し、自己比較する。
元のコードを LLM 生成の代替品と比較することにより,コメントからの距離や LLM の信頼度などの特徴によって,さらなる検査を行うための異常として,注目すべき違いをフラグ付けすることができる。
これにより、デザイナーの検査検索スペースが削減される。
この領域の他の自動化アプローチとは異なり、FLAGは言語に依存しず、不完全な(そしてコンパイルされていない)コードに取り組み、セキュリティ特性や機能テスト、ルールの定義を必要としない。
本研究では,この分類においてLLMを支援する機能について検討し,既知のバグに対するFLAGの性能評価を行う。
私たちは、c、python、verilogで121のベンチマークを使用し、それぞれのベンチマークには既知のセキュリティや機能の弱点が含まれています。
我々はOpenAIの Code-davinci-002 と gpt-3.5-turbo の2つの技術 LLM を用いて実験を行った。
flagは欠陥の101を識別でき、検索スペースをソースコードの12-17%に削減するのに役立つ。
関連論文リスト
- Enabling Memory Safety of C Programs using LLMs [5.297072277460838]
C言語で書かれた低レベルのコードのメモリ安全性違反は、ソフトウェア脆弱性の主要な原因のひとつであり続けています。
このような違反を建設によって除去する方法の1つは、安全なC方言にCコードを移植することである。
このような方言は、最小限のランタイムオーバーヘッドで安全性を保証するためにプログラマが提供するアノテーションに依存している。
この移植は、プログラマに多大な負担をかける手作業であり、そのため、このテクニックの採用は限られている。
論文 参考訳(メタデータ) (2024-04-01T13:05:54Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
FoC-BinLLMは、ROUGE-LスコアでChatGPTを14.61%上回った。
FoC-Simは52%高いRecall@1で過去のベストメソッドを上回っている。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - AgentFL: Scaling LLM-based Fault Localization to Project-Level Context [11.147750199280813]
本稿では,ChatGPTに基づくマルチエージェントシステムであるAgentFLについて述べる。
人間の開発者の振る舞いをシミュレートすることで、AgentFLはFLタスクを3段階のプロセスとしてモデル化する。
広く使用されているDefects4J-V1.2.0ベンチマークの評価は、AgentFLがTop-1内の395のバグのうち157をローカライズできることを示している。
論文 参考訳(メタデータ) (2024-03-25T01:58:19Z) - InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiCoder-Evalは、コードのQAベンチマークである。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiCoder-Eval 上で 80 以上のコード LLM に対して,系統的な評価を行い,一連の知見を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - A Preliminary Evaluation of LLM-Based Fault Localization [14.390580776549866]
本稿では,単一障害テストのみを必要とする自動障害ローカライゼーション手法であるAutoFLについて述べる。
我々の結果は、広く使われているDefects4Jベンチマークにおいて、AutoFLは、以前の作業から比較したすべてのスタンドアロン技術よりも、最初の試行で失敗するメソッドを特定することができることを示している。
論文 参考訳(メタデータ) (2023-08-10T10:26:55Z) - ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle
Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。
我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。
実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-24T00:10:15Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。