Fugu-MT 論文翻訳(概要): FLAG: Finding Line Anomalies (in code) with Generative AI

論文の概要: FLAG: Finding Line Anomalies (in code) with Generative AI

arxiv url: http://arxiv.org/abs/2306.12643v1
Date: Thu, 22 Jun 2023 03:04:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-23 15:34:36.417879
Title: FLAG: Finding Line Anomalies (in code) with Generative AI
Title（参考訳）: FLAG:ジェネレーティブAIでライン異常(コード内で)を見つける
Authors: Baleegh Ahmad, Benjamin Tan, Ramesh Karri, Hammond Pearce
Abstract要約: FLAGは、生成AIの語彙能力、特にLarge Language Models(LLM)に基づいている。 C、Python、Verilogで121のベンチマークを使用します。 FLAGは101の欠陥を識別でき、検索スペースを12-17%に削減できる。
参考スコア（独自算出の注目度）: 18.612900041820875
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code contains security and functional bugs. The process of identifying and localizing them is difficult and relies on human labor. In this work, we present a novel approach (FLAG) to assist human debuggers. FLAG is based on the lexical capabilities of generative AI, specifically, Large Language Models (LLMs). Here, we input a code file then extract and regenerate each line within that file for self-comparison. By comparing the original code with an LLM-generated alternative, we can flag notable differences as anomalies for further inspection, with features such as distance from comments and LLM confidence also aiding this classification. This reduces the inspection search space for the designer. Unlike other automated approaches in this area, FLAG is language-agnostic, can work on incomplete (and even non-compiling) code and requires no creation of security properties, functional tests or definition of rules. In this work, we explore the features that help LLMs in this classification and evaluate the performance of FLAG on known bugs. We use 121 benchmarks across C, Python and Verilog; with each benchmark containing a known security or functional weakness. We conduct the experiments using two state of the art LLMs in OpenAI's code-davinci-002 and gpt-3.5-turbo, but our approach may be used by other models. FLAG can identify 101 of the defects and helps reduce the search space to 12-17% of source code.
Abstract（参考訳）: コードにはセキュリティと機能的なバグが含まれている。それらの特定とローカライゼーションのプロセスは困難であり、人間の労働に依存している。本研究では,ヒトデバッガを支援する新しいアプローチ (FLAG) を提案する。 FLAGは、生成AI、特にLarge Language Models(LLM)の語彙能力に基づいている。ここでは、コードファイルを入力し、そのファイル内の各行を抽出して再生し、自己比較する。元のコードを LLM 生成の代替品と比較することにより,コメントからの距離や LLM の信頼度などの特徴によって,さらなる検査を行うための異常として,注目すべき違いをフラグ付けすることができる。これにより、デザイナーの検査検索スペースが削減される。この領域の他の自動化アプローチとは異なり、FLAGは言語に依存しず、不完全な(そしてコンパイルされていない)コードに取り組み、セキュリティ特性や機能テスト、ルールの定義を必要としない。本研究では,この分類においてLLMを支援する機能について検討し,既知のバグに対するFLAGの性能評価を行う。私たちは、c、python、verilogで121のベンチマークを使用し、それぞれのベンチマークには既知のセキュリティや機能の弱点が含まれています。我々はOpenAIの Code-davinci-002 と gpt-3.5-turbo の2つの技術 LLM を用いて実験を行った。 flagは欠陥の101を識別でき、検索スペースをソースコードの12-17%に削減するのに役立つ。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Zero-Shot Detection of LLM-Generated Code via Approximated Task Conditioning [8.571111167616165]
LLM(Large Language Model)が生成するコードは、セキュリティ、知的財産権、学術的完全性に影響を及ぼす。ゼロショットLLM生成符号検出における条件付き確率分布の役割について検討する。与えられたコードスニペットを生成するのに使用される元のタスクを近似する新しいゼロショット検出手法を提案する。
論文参考訳（メタデータ） (2025-06-06T13:23:37Z)
Fault Localization from the Semantic Code Search Perspective [8.287095430092835]
本稿では,障害局所化タスクをクエリ生成と障害検索の2つのステップに分解する障害ローカライザを提案する。 CosFLはTop-1で324のバグをローカライズすることに成功し、最先端のアプローチを26.6%-57.3%上回った。
論文参考訳（メタデータ） (2024-11-26T08:52:13Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文参考訳（メタデータ） (2024-05-25T08:57:28Z)
Chain of Targeted Verification Questions to Improve the Reliability of Code Generated by LLMs [10.510325069289324]
LLMが生成するコードの信頼性向上を目的とした自己補充手法を提案する。当社のアプローチは,初期コード内の潜在的なバグを特定するために,対象とする検証質問(VQ)に基づいています。本手法は,LLMをターゲットとするVQと初期コードで再プロンプトすることで,潜在的なバグの修復を試みる。
論文参考訳（メタデータ） (2024-05-22T19:02:50Z)
AgentFL: Scaling LLM-based Fault Localization to Project-Level Context [11.147750199280813]
本稿では,ChatGPTに基づくマルチエージェントシステムであるAgentFLについて述べる。人間の開発者の振る舞いをシミュレートすることで、AgentFLはFLタスクを3段階のプロセスとしてモデル化する。広く使用されているDefects4J-V1.2.0ベンチマークの評価は、AgentFLがTop-1内の395のバグのうち157をローカライズできることを示している。
論文参考訳（メタデータ） (2024-03-25T01:58:19Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文参考訳（メタデータ） (2024-02-06T20:38:46Z)
Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文参考訳（メタデータ） (2023-10-08T10:08:21Z)
ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文参考訳（メタデータ） (2023-05-24T00:10:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。