論文の概要: CGEMs: A Metric Model for Automatic Code Generation using GPT-3
- arxiv url: http://arxiv.org/abs/2108.10168v1
- Date: Mon, 23 Aug 2021 13:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 17:59:11.222391
- Title: CGEMs: A Metric Model for Automatic Code Generation using GPT-3
- Title(参考訳): CGEMs: GPT-3を用いた自動コード生成のメトリクスモデル
- Authors: Aishwarya Narasimhan (1), Krishna Prasad Agara Venkatesha Rao (2),
Veena M B (1) ((1) B M S College of Engineering, (2) Sony India Software
Centre Pvt. Ltd.)
- Abstract要約: 本研究は,理論的証明を用いて,あるいはモンテカルロシミュレーション法を用いてAI生成コンテンツを検証することを目的とする。
この場合、後者の手法を用いて統計的にかなりの数のサンプルを検査・検証する。
コンパイル、ロジック変換へのNL記述、必要な編集数、一般的に使用されている静的コードメトリクスとNLPメトリクス。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today, AI technology is showing its strengths in almost every industry and
walks of life. From text generation, text summarization, chatbots, NLP is being
used widely. One such paradigm is automatic code generation. An AI could be
generating anything; hence the output space is unconstrained. A self-driving
car is driven for 100 million miles to validate its safety, but tests cannot be
written to monitor and cover an unconstrained space. One of the solutions to
validate AI-generated content is to constrain the problem and convert it from
abstract to realistic, and this can be accomplished by either validating the
unconstrained algorithm using theoretical proofs or by using Monte-Carlo
simulation methods. In this case, we use the latter approach to test/validate a
statistically significant number of samples. This hypothesis of validating the
AI-generated code is the main motive of this work and to know if AI-generated
code is reliable, a metric model CGEMs is proposed. This is an extremely
challenging task as programs can have different logic with different naming
conventions, but the metrics must capture the structure and logic of the
program. This is similar to the importance grammar carries in AI-based text
generation, Q&A, translations, etc. The various metrics that are garnered in
this work to support the evaluation of generated code are as follows:
Compilation, NL description to logic conversion, number of edits needed, some
of the commonly used static-code metrics and NLP metrics. These metrics are
applied to 80 codes generated using OpenAI's GPT-3. Post which a Neural network
is designed for binary classification (acceptable/not acceptable quality of the
generated code). The inputs to this network are the values of the features
obtained from the metrics. The model achieves a classification accuracy of
76.92% and an F1 score of 55.56%. XAI is augmented for model interpretability.
- Abstract(参考訳): 今日のai技術は、ほぼすべての業界と生活の歩みにおいてその強みを見せている。
テキスト生成、テキスト要約、チャットボット、NLPは広く使われている。
そのようなパラダイムの1つは自動コード生成である。
AIは何でも生成できるため、出力スペースは制限されない。
自動運転車は安全性を検証するために1億マイルを走行するが、制約のない空間を監視しカバーするためのテストは書けない。
aiが生成するコンテンツを検証するための解決策の1つは、問題を制約し、それを抽象的から現実的なものに変換することである。
この場合、統計的に有意なサンプル数をテスト/検証するために後者のアプローチを用いる。
この仮説は、AI生成コードの検証が主な動機であり、AI生成コードが信頼できるかどうかを知るため、計量モデルCGEMを提案する。
プログラムが異なる命名規則で異なるロジックを持つことができるため、これは非常に難しいタスクであるが、メトリクスはプログラムの構造とロジックをキャプチャする必要がある。
これは、AIベースのテキスト生成、Q&A、翻訳などにおいて、文法が持つ重要性と似ている。
コンパイル、ロジック変換へのNL記述、必要な編集数、一般的に使用される静的コードメトリクスとNLPメトリクス。
これらのメトリクスはOpenAIのGPT-3を使って生成された80のコードに適用される。
ニューラルネットワークがバイナリ分類用に設計されたポスト(生成されたコードの許容/許容品質)。
このネットワークへの入力は、メトリクスから得られた特徴の値である。
分類精度は76.92%、F1スコアは55.56%である。
XAIはモデル解釈可能性のために拡張されている。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Benchmarking Large Language Models with Integer Sequence Generation Tasks [1.3108652488669736]
本稿では,大規模言語モデル(LLM)がオンラインシーケンス百科事典(OEIS)から整数列を計算するコードを書かなければならない,新たなベンチマークを提案する。
ベンチマークの結果、OpenAI、Anthropic、Meta、Googleの他のフロンティアモデルよりも、簡単かつハードな整数シーケンス間の精度と不正なレートで、o1シリーズのモデルの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-11-07T02:05:43Z) - An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We? [8.0988059417354]
本稿では,AI生成コード検出の性能向上のための様々な手法を提案する。
我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。
論文 参考訳(メタデータ) (2024-11-06T22:48:18Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation [32.178931149612644]
ulModel ulImprovement via ulNeuron ulTargeting (textscMINT)は、コード言語モデル(LM)を修復するための新しいアプローチである。
textscMINTは有効で効率的で信頼性が高く、最小数のニューロンにパッチを当てることで神経モデルを修正できる。
論文 参考訳(メタデータ) (2023-12-08T20:28:08Z) - GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Who Evaluates the Evaluators? On Automatic Metrics for Assessing
AI-based Offensive Code Generators [1.7616042687330642]
コードジェネレータは、自然言語による記述から始まるプログラムを自動記述する新しいソリューションである。
特にコードジェネレータは、概念実証攻撃を生成することによって、倫理的ハッキングや攻撃的なセキュリティテストに使用されている。
この研究は、攻撃的なコードジェネレータの出力類似度を大量に分析する。
論文 参考訳(メタデータ) (2022-12-12T16:16:09Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。