Fugu-MT 論文翻訳(概要): Discriminating Human-authored from ChatGPT-Generated Code Via Discernable Feature Analysis

論文の概要: Discriminating Human-authored from ChatGPT-Generated Code Via Discernable Feature Analysis

arxiv url: http://arxiv.org/abs/2306.14397v2
Date: Tue, 4 Jul 2023 09:23:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 20:06:18.637833
Title: Discriminating Human-authored from ChatGPT-Generated Code Via Discernable Feature Analysis
Title（参考訳）: 識別可能な特徴分析によるChatGPT生成コードからの人間認証
Authors: Li Ke, Hong Sheng, Fu Cai, Zhang Yunhe and Liu Ming
Abstract要約: 本稿では,ChatGPTが生成するコードと,人間が作成したコードとを区別することを目的とする。時間的・空間的セグメンテーションを用いたデータセット浄化手法を考案し,データセットの変形を緩和する。データリソースをさらに強化するために、我々は、ChatGPT生成コードの1万行からなる広範囲なデータセットを生成する"コード変換"、"機能変換"、"機能カスタマイズ"技術を採用している。
参考スコア（独自算出の注目度）: 2.9398911304923447
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ubiquitous adoption of Large Language Generation Models (LLMs) in programming has underscored the importance of differentiating between human-written code and code generated by intelligent models. This paper specifically aims to distinguish code generated by ChatGPT from that authored by humans. Our investigation reveals disparities in programming style, technical level, and readability between these two sources. Consequently, we develop a discriminative feature set for differentiation and evaluate its efficacy through ablation experiments. Additionally, we devise a dataset cleansing technique, which employs temporal and spatial segmentation, to mitigate the dearth of datasets and to secure high-caliber, uncontaminated datasets. To further enrich data resources, we employ "code transformation," "feature transformation," and "feature customization" techniques, generating an extensive dataset comprising 10,000 lines of ChatGPT-generated code. The salient contributions of our research include: proposing a discriminative feature set yielding high accuracy in differentiating ChatGPT-generated code from human-authored code in binary classification tasks; devising methods for generating extensive ChatGPT-generated codes; and introducing a dataset cleansing strategy that extracts immaculate, high-grade code datasets from open-source repositories, thus achieving exceptional accuracy in code authorship attribution tasks.
Abstract（参考訳）: プログラミングにおける大規模言語生成モデル(llm)のユビキタスな採用は、人間の書いたコードとインテリジェントなモデルによって生成されたコードの区別の重要性を強調している。本稿では,ChatGPTが生成するコードと,人間が作成したコードとを区別することを目的とする。この2つのソース間のプログラミングスタイル,技術レベル,可読性の違いを明らかにする。その結果,分化のための識別的特徴セットを開発し,その効果をアブレーション実験により評価する。さらに,時間的および空間的セグメンテーションを用いたデータセットクリーニング手法を考案し,データセットの重大さを軽減し,高度かつ汚染されていないデータセットを確保する。データリソースをさらに充実させるためには、"コードトランスフォーメーション"、"機能トランスフォーメーション"、"機能カスタマイズ"技術を採用し、10,000行のchatgpt生成コードからなる広範なデータセットを生成します。本研究の有意義な貢献は、二分分類タスクにおいて、人間が許可したコードとチャットgpt生成コードを区別する精度の高い識別機能セットの提案、広範なチャットgpt生成コードを生成する方法の考案、オープンソースリポジトリから未完成で高品質なコードデータセットを抽出するためのデータセットクリーン化戦略の導入、コードオーサシップアトリビューションタスクにおける例外的な精度の向上などである。

関連論文リスト

High-quality data augmentation for code comment classification [0.48429188360918735]
コメントは自然言語であるため、マシンベースのコード理解の課題を提示している。このタスクの既存のデータセットはサイズ制限とクラス不均衡に悩まされている。我々は、NLBSE'26チャレンジデータセットを強化するために、高品質なデータ生成に基づく新しい合成オーバーサンプリングと拡張技術を導入する。
論文参考訳（メタデータ） (2026-01-27T09:14:56Z)
Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードドメインの両方で合成トレーニングデータ生成を変換している。我々は、プロンプトベースの生成、検索拡張パイプライン、反復的な自己精製といった重要なテクニックを強調した。本稿では,生成テキストにおける事実的不正確性,文体的あるいは分布的リアリズムの不足,バイアス増幅のリスクなど,関連する課題について論じる。
論文参考訳（メタデータ） (2025-03-18T08:34:03Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
Distinguishing LLM-generated from Human-written Code by Contrastive Learning [5.553326595990857]
大規模言語モデル(LLM)は、様々なタスクに対して高品質なコンテンツを生成する能力があることが証明されたため、大きな注目を集めている。ニュース、教育、ソフトウェア工学など、さまざまな分野における潜在的なリスクに対する懸念が高まっている。コントラスト学習フレームワークとUniXcoderで構築したセマンティックエンコーダに基づく,新しいChatGPT生成コード検出器CodeGPTSensorを提案する。
論文参考訳（メタデータ） (2024-11-07T13:39:14Z)
Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文参考訳（メタデータ） (2024-09-20T14:49:51Z)
You Augment Me: Exploring ChatGPT-based Data Augmentation for Semantic Code Search [47.54163552754051]
コード検索はソフトウェア開発において重要な役割を担い、開発者は自然言語クエリを使ってコードを検索し再利用することができる。近年,大規模言語モデル (LLM) は自然言語の理解と生成において顕著な進歩を遂げている。本稿では,大規模言語モデルによって生成された高品質で多様な拡張データを利用する新しいアプローチChatDANCEを提案する。
論文参考訳（メタデータ） (2024-08-10T12:51:21Z)
Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers [14.018844722021896]
機械および人為的なコードの特徴を特徴付ける特定のパターンについて検討する。本研究では,機械生成コード検出のための新しい手法であるTectCodeGPTを提案する。
論文参考訳（メタデータ） (2024-01-12T09:15:20Z)
Assessing the Promise and Pitfalls of ChatGPT for Automated Code Generation [2.0400340435492272]
本稿では,著名な大規模言語モデルであるChatGPTのコード生成能力を総合的に評価する。 5つのカテゴリにまたがる131のコード生成プロンプトのデータセットをキュレートして、堅牢な分析を可能にした。コードソリューションはChatGPTと人間によってすべてのプロンプトで生成され、262のコードサンプルが得られた。
論文参考訳（メタデータ） (2023-11-05T12:56:40Z)
Leveraging Generative AI: Improving Software Metadata Classification with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文参考訳（メタデータ） (2023-10-14T12:09:43Z)
CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文参考訳（メタデータ） (2022-11-25T18:05:44Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文参考訳（メタデータ） (2020-10-24T14:16:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。