論文の概要: A Simple, Yet Effective Approach to Finding Biases in Code Generation
- arxiv url: http://arxiv.org/abs/2211.00609v1
- Date: Mon, 31 Oct 2022 15:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 14:28:57.597472
- Title: A Simple, Yet Effective Approach to Finding Biases in Code Generation
- Title(参考訳): コード生成におけるバイアスを見つけるためのシンプルで効果的なアプローチ
- Authors: Spyridon Mouselinos, Mateusz Malinowski, Henryk Michalewski
- Abstract要約: この研究は、現在のコード生成システムが、大きな言語モデルのバックボーンから受け継がれたバイアスを示すことを示している。
我々は、ヒントを自動的に削除し、これらのコード生成モデルが使用する様々なバイアスを公開するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.094062131137722
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, scores of high-performing code generation systems have surfaced. As
has become a popular choice in many domains, code generation is often
approached using large language models as a core, trained under the masked or
causal language modeling schema. This work shows that current code generation
systems exhibit biases inherited from large language model backbones, which
might leak into generated code under specific circumstances.
To investigate the effect, we propose a framework that automatically removes
hints and exposes various biases that these code generation models use. We
apply our framework to three coding challenges and test it across
top-performing coding generation models. Our experiments reveal biases towards
specific prompt structure and exploitation of keywords during code generation.
Finally, we demonstrate how to use our framework as a data transformation
technique, which we find a promising direction toward more robust code
generation.
- Abstract(参考訳): 近年,高性能コード生成システムのスコアが浮上している。
多くのドメインで広く採用されているように、コード生成は大きな言語モデルをコアとして使用し、マスクや因果関係の言語モデリングスキーマの下でトレーニングされることが多い。
この研究は、現在のコード生成システムが大きな言語モデルのバックボーンから継承されたバイアスを示しており、特定の状況下で生成されたコードにリークする可能性があることを示している。
そこで本研究では,ヒントを自動削除し,コード生成モデルが使用する様々なバイアスを露呈するフレームワークを提案する。
フレームワークを3つのコーディング課題に適用し、トップパフォーマンスのコーディング生成モデルでテストします。
本実験は,コード生成中のキーワードの特定のプロンプト構造と活用に対するバイアスを明らかにする。
最後に,より堅牢なコード生成に向けた有望な方向性を見出した,データ変換手法としてのフレームワークの使用方法を示す。
関連論文リスト
- Toward Exploring the Code Understanding Capabilities of Pre-trained Code Generation Models [12.959392500354223]
私たちは、事前訓練されたコード生成モデルからコード理解タスクへの知識の移行の先駆者です。
CL4Dはデコーダのみのモデルの表現能力を向上させるために設計された,コントラスト学習手法である。
論文 参考訳(メタデータ) (2024-06-18T06:52:14Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers [14.018844722021896]
機械および人為的なコードの特徴を特徴付ける特定のパターンについて検討する。
本研究では,機械生成コード検出のための新しい手法であるTectCodeGPTを提案する。
論文 参考訳(メタデータ) (2024-01-12T09:15:20Z) - Reverse-Engineering Decoding Strategies Given Blackbox Access to a
Language Generation System [73.52878118434147]
テキスト生成に使用する復号法をリバースエンジニアリングする手法を提案する。
どのようなデコード戦略が使われたかを検出する能力は、生成されたテキストを検出することに影響を及ぼす。
論文 参考訳(メタデータ) (2023-09-09T18:19:47Z) - Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。
本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。
提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-12-09T03:58:22Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - On Adversarial Robustness of Synthetic Code Generation [1.2559148369195197]
本論文は, 逆数例の異なるクラスを通して, 有意なデータセットバイアスの存在を示す。
バイアスを低減し,有効性を示すために,いくつかのデータセット拡張手法を提案する。
論文 参考訳(メタデータ) (2021-06-22T09:37:48Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。