Fugu-MT 論文翻訳(概要): An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We?

論文の概要: An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We?

arxiv url: http://arxiv.org/abs/2411.04299v1
Date: Wed, 06 Nov 2024 22:48:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.16279
Title: An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We?
Title（参考訳）: AI生成ソースコードの自動検出に関する実証的研究
Authors: Hyunjae Suh, Mahan Tafreshipour, Jiawei Li, Adithya Bhattiprolu, Iftekhar Ahmed,
Abstract要約: 本稿では,AI生成コード検出の性能向上のための様々な手法を提案する。我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。
参考スコア（独自算出の注目度）: 8.0988059417354
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Artificial Intelligence (AI) techniques, especially Large Language Models (LLMs), have started gaining popularity among researchers and software developers for generating source code. However, LLMs have been shown to generate code with quality issues and also incurred copyright/licensing infringements. Therefore, detecting whether a piece of source code is written by humans or AI has become necessary. This study first presents an empirical analysis to investigate the effectiveness of the existing AI detection tools in detecting AI-generated code. The results show that they all perform poorly and lack sufficient generalizability to be practically deployed. Then, to improve the performance of AI-generated code detection, we propose a range of approaches, including fine-tuning the LLMs and machine learning-based classification with static code metrics or code embedding generated from Abstract Syntax Tree (AST). Our best model outperforms state-of-the-art AI-generated code detector (GPTSniffer) and achieves an F1 score of 82.55. We also conduct an ablation study on our best-performing model to investigate the impact of different source code features on its performance.
Abstract（参考訳）: 人工知能(AI)技術、特にLarge Language Models(LLMs)は、ソースコードを生成する研究者やソフトウェア開発者の間で人気が高まっている。しかし、LCMは品質上の問題や著作権・ライセンス侵害を引き起こすコードを生成することが示されている。したがって、ソースコードの一部が人間によって書かれたか、AIによって書かれたかを検出する必要がある。そこで本研究では,AI生成コード検出における既存のAI検出ツールの有効性を実証的に検討する。結果は、それらすべてが性能が悪く、実際にデプロイするのに十分な一般化性が欠如していることを示しています。そこで我々は,AI生成コード検出の性能向上のために,静的コードメトリクスを用いたLLMの微調整や,抽象構文木(AST)から生成されたコード埋め込みなど,さまざまなアプローチを提案する。我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。また、その性能に対する異なるソースコード機能の影響を調べるために、最高のパフォーマンスモデルに関するアブレーション研究も行います。

関連論文リスト

DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。本研究は,それらの認知過程と強化学習手法について考察する。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文参考訳（メタデータ） (2025-06-25T17:35:47Z)
CodeMirage: A Multi-Lingual Benchmark for Detecting AI-Generated and Paraphrased Source Code from Production-Level LLMs [15.25980318643715]
大規模言語モデル(LLM)は現代のソフトウェア開発に不可欠なものとなり、膨大な量のAI生成ソースコードを生み出している。既存のベンチマークは不足している -- ほとんどの場合、限られたプログラム言語のみをカバーし、能力の低い生成モデルに依存している。私たちは、広く使われている10のプログラミング言語にまたがるベンチマークであるCodeMirageを紹介します。
論文参考訳（メタデータ） (2025-05-27T03:25:12Z)
Could AI Trace and Explain the Origins of AI-Generated Images and Text? [53.11173194293537]
AI生成コンテンツは、現実の世界ではますます普及している。敵は、大規模なマルチモーダルモデルを利用して、倫理的または法的基準に違反した画像を作成するかもしれない。ペーパーレビュアーは、大きな言語モデルを誤用して、真の知的努力なしにレビューを生成する。
論文参考訳（メタデータ） (2025-04-05T20:51:54Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Trust at Your Own Peril: A Mixed Methods Exploration of the Ability of Large Language Models to Generate Expert-Like Systems Engineering Artifacts and a Characterization of Failure Modes [0.0]
そこでは,人間の専門家が作成したSEアーティファクトをベンチマークとして用いた経験的探索の結果を報告する。次に、AI生成されたアーティファクトとベンチマークを比較するために、2倍の混合メソッドアプローチを採用しました。 2つの素材は非常に似ているように見えるが、AIが生成したアーティファクトは深刻な障害モードを示しており、検出は困難である。
論文参考訳（メタデータ） (2025-02-13T17:05:18Z)
Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文参考訳（メタデータ） (2025-02-11T01:12:11Z)
Intelligent Green Efficiency for Intrusion Detection [0.0]
本稿では,AIの性能向上のための異なるプログラミング言語と特徴選択(FS)手法の評価を行う。実験はRandom Forest、XGBoost、LightGBM、Multi-Layer Perceptron、Long Short-Term Memoryの5つのMLモデルを用いて行われた。その結果、FSは検出精度を損なうことなくAIモデルの計算効率を向上させる重要な役割を担っていることが示された。
論文参考訳（メタデータ） (2024-11-11T15:01:55Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
MOSAIC: Multiple Observers Spotting AI Content, a Robust Approach to Machine-Generated Text Detection [35.67613230687864]
大規模言語モデル(LLM)は大規模に訓練され、強力なテキスト生成能力を備えている。人文テキストから人工的に生成されたものを自動判別する様々な提案がなされている。それぞれの強みを組み合わせるための、理論上は新たなアプローチを導出します。種々のジェネレータLSMを用いた実験により,本手法がロバスト検出性能を効果的に導くことが示唆された。
論文参考訳（メタデータ） (2024-09-11T20:55:12Z)
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文参考訳（メタデータ） (2024-05-25T08:57:28Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
A Preliminary Study on Using Large Language Models in Software Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文参考訳（メタデータ） (2024-01-30T21:42:59Z)
SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文参考訳（メタデータ） (2024-01-29T10:01:10Z)
Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers [14.018844722021896]
機械および人為的なコードの特徴を特徴付ける特定のパターンについて検討する。本研究では,機械生成コード検出のための新しい手法であるTectCodeGPTを提案する。
論文参考訳（メタデータ） (2024-01-12T09:15:20Z)
AI Content Self-Detection for Transformer-based Large Language Models [0.0]
本稿では、直接起点検出の概念を導入し、生成型AIシステムが出力を認識し、人文テキストと区別できるかどうかを評価する。 GoogleのBardモデルは、精度94%の自己検出の最大の能力を示し、OpenAIのChatGPTは83%である。
論文参考訳（メタデータ） (2023-12-28T10:08:57Z)
Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)
An Initial Look at Self-Reprogramming Artificial Intelligence [0.0]
我々は、最初の完全自己プログラミングAIシステムを開発し、実験的に検証する。 AIベースのコンピュータコード生成をAI自体に適用することで、ニューラルネットワークのソースコードを継続的に修正し書き換えるアルゴリズムを実装します。
論文参考訳（メタデータ） (2022-04-30T05:44:34Z)
Enabling Automated Machine Learning for Model-Driven AI Engineering [60.09869520679979]
モデル駆動型ソフトウェアエンジニアリングとモデル駆動型AIエンジニアリングを実現するための新しいアプローチを提案する。特に、私たちはAutomated MLをサポートし、AI集約システムの開発において、AIの深い知識のないソフトウェアエンジニアを支援します。
論文参考訳（メタデータ） (2022-03-06T10:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。