論文の概要: Bias Assessment and Mitigation in LLM-based Code Generation
- arxiv url: http://arxiv.org/abs/2309.14345v1
- Date: Sun, 3 Sep 2023 07:14:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-01 12:15:03.757378
- Title: Bias Assessment and Mitigation in LLM-based Code Generation
- Title(参考訳): LLMコード生成におけるバイアス評価と緩和
- Authors: Dong Huang, Qingwen Bu, Jie Zhang, Xiaofei Xie, Junjie Chen, Heming
Cui
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア開発のコーディング手順の生産性と効率を高める上で重要な役割を担います。
LLMの採用がソフトウェアコーディングのエコシステムに広まるにつれ、問題が発生している。
本稿では,コード生成タスクに特化して設計された新しいバイアス評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.2052136310021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Utilizing state-of-the-art Large Language Models (LLMs), automatic code
generation models play a pivotal role in enhancing the productivity and
efficiency of software development coding procedures. As the adoption of LLMs
becomes more widespread in software coding ecosystems, a pressing issue has
emerged: does the generated code contain social biases, such as those related
to age, gender, and race? This issue concerns the integrity, fairness, and
ethical foundation of software applications that depend on the code generated
by these models, yet is under-explored in the literature. This paper presents a
novel bias assessment framework that is specifically designed for code
generation tasks. Based on this framework, we conduct an extensive evaluation
on the bias of nine state-of-the-art LLM-based code generation models. Our
findings reveal that first, 31.45\% to 79.93\% code functions generated by our
evaluated code generation models are biased, and 9.68\% to 37.37\% code
functions' functionality are affected by the bias, which means biases not only
exist in code generation models but in some cases, directly affect the
functionality of the generated code, posing risks of unintended and possibly
harmful software behaviors. To mitigate bias from code generation models, we
propose three mitigation strategies, which can decrease the biased code ratio
to a very low level of 0.4\% to 4.57\%.
- Abstract(参考訳): 最先端の大規模言語モデル(LLM)を利用することで、自動コード生成モデルは、ソフトウェア開発のコーディング手順の生産性と効率を高める上で重要な役割を果たす。
ソフトウェアコーディングのエコシステムにおいて、llmの採用がより普及するにつれて、問題が発生する。 生成されたコードは年齢、性別、人種に関連するような社会的バイアスを含んでいるか?
この問題は、これらのモデルによって生成されたコードに依存するソフトウェアアプリケーションの完全性、公平性、倫理的基盤に関するものである。
本稿では,コード生成タスク用に特別に設計されたバイアスアセスメントフレームワークを提案する。
このフレームワークに基づき、我々は9つの最先端llmベースのコード生成モデルのバイアスを広範囲に評価する。
その結果、まず、評価されたコード生成モデルによって生成された31.45\%から79.93\%のコード関数にバイアスがかかり、9.68\%から37.37\%のコード関数の機能はバイアスによって影響を受けることが判明した。
コード生成モデルからのバイアスを軽減するために、バイアスのあるコード比率を0.4\%から4.57\%に下げる3つの緩和戦略を提案する。
関連論文リスト
- Comparing Robustness Against Adversarial Attacks in Code Generation: LLM-Generated vs. Human-Written [11.16693333878553]
本稿では,人間が記述したコードに微調整したPTMC(Pre-trained Models of Code)の対角的ロバスト性を評価するための実証的研究を紹介する。
2つのデータセット、2つの最先端PTMC、2つの堅牢性評価基準、3つのメトリクスを実験で用いた。
論文 参考訳(メタデータ) (2024-11-15T20:25:32Z) - A Comprehensive Survey of AI-Driven Advancements and Techniques in Automated Program Repair and Code Generation [0.0]
最近27の論文がレビューされ、2つのグループに分けられた。
最初のグループは、意味的エラーの特定を含む、バグの検出と修復のための新しいメソッドで構成されている。
2つ目のグループはコード生成に精通しており、プログラミングとタスク固有のモデルのために微調整された汎用LLMの概要を提供している。
また、識別子認識トレーニング、命令レベルでの微調整、セマンティックコード構造の導入など、コード生成を改善する方法も提示されている。
論文 参考訳(メタデータ) (2024-11-12T06:47:54Z) - A Deep Dive Into Large Language Model Code Generation Mistakes: What and Why? [9.246899995643918]
大規模な言語モデルは、仕様から逸脱する欠陥コードを生成することができる。
広範囲な手動分析により, ノンシンタクティックな誤りの7つのカテゴリーが同定された。
評価の結果,LPMの誤りの原因を特定すると,ReActプロンプト技術を用いたGPT-4が最大0.65のF1スコアを達成できることがわかった。
論文 参考訳(メタデータ) (2024-11-03T02:47:03Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。
以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Do Large Language Models Pay Similar Attention Like Human Programmers When Generating Code? [10.249771123421432]
我々は,Large Language Models (LLMs) が,コード生成中に人間のプログラマと同じタスク記述に係わるかどうかを検討する。
手動で211の間違ったコードスニペットを分析し、多くのコード生成エラーを説明するのに使える5つの注意パターンを見つけました。
この結果から,人間によるLLMの理解性向上とプログラマの信頼度向上の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2023-06-02T00:57:03Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。