論文の概要: Bias Testing and Mitigation in LLM-based Code Generation
- arxiv url: http://arxiv.org/abs/2309.14345v2
- Date: Tue, 9 Jan 2024 09:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 19:57:42.049593
- Title: Bias Testing and Mitigation in LLM-based Code Generation
- Title(参考訳): LLMに基づくコード生成におけるバイアステストと緩和
- Authors: Dong Huang, Qingwen Bu, Jie Zhang, Xiaofei Xie, Junjie Chen, Heming
Cui
- Abstract要約: 本稿では,コード生成タスクに特化して設計された新しいバイアステストフレームワークを提案する。
調査対象のモデルが生成するコード関数の20.29%から44.93%が偏りに敏感なタスクを扱う際に偏りがあることがわかった。
コード生成モデルのバイアスを軽減するため、我々は5つのバイアス軽減プロンプト戦略を評価する。
- 参考スコア(独自算出の注目度): 25.2052136310021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Utilizing state-of-the-art Large Language Models (LLMs), automatic code
generation models play a pivotal role in enhancing the productivity of software
development procedures. As the adoption of LLMs becomes more widespread in
software coding ecosystems, a pressing issue has emerged: does the generated
code contain social bias and unfairness, such as those related to age, gender,
and race? This issue concerns the integrity, fairness, and ethical foundation
of software applications that depend on the code generated by these models, yet
is under-explored in the literature. This paper presents a novel bias testing
framework that is specifically designed for code generation tasks. Based on
this framework, we conduct an extensive evaluation of the bias in code
generated by five state-of-the-art LLMs. Our findings reveal that 20.29% to
44.93% code functions generated by the models under study are biased when
handling bias sensitive tasks (i.e., tasks that involve sensitive attributes
such as age and gender). This indicates that the existing LLMs can be unfair in
code generation, posing risks of unintended and harmful software behaviors. To
mitigate bias for code generation models, we evaluate five bias mitigation
prompt strategies, i.e., utilizing bias testing results to refine the code
(zero-shot), one-, few-shot, and two Chain-of-Thought (CoT) prompts. Our
evaluation results illustrate that these strategies are all effective in
mitigating bias. Overall, one-shot and few-shot learning are the two most
effective. For GPT-4, 80% to 90% code bias can be removed with one-shot
learning.
- Abstract(参考訳): 最先端の大規模言語モデル(llms)を利用することで、自動コード生成モデルはソフトウェア開発手順の生産性向上に重要な役割を果たします。
ソフトウェアコーディングのエコシステムにおいて、llmの採用がより普及するにつれて、問題が発生する。 生成されたコードには、年齢、性別、人種など、社会的バイアスと不公平性が含まれているのだろうか?
この問題は、これらのモデルによって生成されたコードに依存するソフトウェアアプリケーションの完全性、公平性、倫理的基盤に関するものである。
本稿では,コード生成タスク用に特別に設計された新しいバイアステストフレームワークを提案する。
この枠組みに基づいて、5つの最先端LLMが生成するコードのバイアスを広範囲に評価する。
調査対象のモデルが生成するコード関数の20.29%から44.93%は、偏りに敏感なタスク(年齢や性別などの敏感な属性を含むタスク)を扱う際に偏りがある。
これは、既存のLLMがコード生成において不公平であり、意図しない、有害なソフトウェア行動のリスクがあることを示している。
コード生成モデルのバイアスを軽減するため、バイアステスト結果を利用してコード(ゼロショット)、ワンショット、少数ショット、および2つのチェーン・オブ・ソート(CoT)プロンプトを改良する5つのバイアス緩和プロンプト戦略を評価する。
評価結果は,これらの戦略がバイアス軽減に有効であることを示している。
全体として、一発学習と二発学習が最も効果的である。
GPT-4では、80%から90%のコードバイアスをワンショット学習で除去できる。
関連論文リスト
- GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - Generate and Pray: Using SALLMS to Evaluate the Security of LLM
Generated Code [0.7451457983372032]
大規模言語モデルによって生成されたコードが正しいだけでなく、脆弱性もないことを保証することが重要です。
LLM(Large Language Models)を評価するために使われる既存のデータセットは、セキュリティに敏感な真のソフトウェアエンジニアリングタスクを適切に表現していない。
生成されたコードのセキュリティを評価することに焦点を当てたベンチマークが明らかに欠落している。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z) - Uncovering and Quantifying Social Biases in Code Generation [71.96047133403688]
コード生成モデルにおいて,コードプロンプトを構築し,社会的バイアスを明らかにするための新しいパラダイムを提案する。
我々は,3つの指標とともにデータセットを開発し,社会の偏見と,異なる人口層間でのきめ細かい不公平さを評価する。
我々は、社会的バイアスの低いコード生成モデルをさらに選択するための有用な洞察を提供するために分析を行う。
論文 参考訳(メタデータ) (2023-05-24T17:37:33Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - A Simple, Yet Effective Approach to Finding Biases in Code Generation [16.094062131137722]
この研究は、現在のコード生成システムが、彼らの大きな言語モデルバックボーンから受け継がれた望ましくないバイアスを示すことを示している。
コーディング課題のモジュラー分解と解析を可能にする「影響ブロック」の概念を提案する。
論文 参考訳(メタデータ) (2022-10-31T15:06:15Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。