論文の概要: Bias Assessment and Mitigation in LLM-based Code Generation
- arxiv url: http://arxiv.org/abs/2309.14345v1
- Date: Sun, 3 Sep 2023 07:14:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-01 12:15:03.757378
- Title: Bias Assessment and Mitigation in LLM-based Code Generation
- Title(参考訳): LLMコード生成におけるバイアス評価と緩和
- Authors: Dong Huang, Qingwen Bu, Jie Zhang, Xiaofei Xie, Junjie Chen, Heming
Cui
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア開発のコーディング手順の生産性と効率を高める上で重要な役割を担います。
LLMの採用がソフトウェアコーディングのエコシステムに広まるにつれ、問題が発生している。
本稿では,コード生成タスクに特化して設計された新しいバイアス評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.2052136310021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Utilizing state-of-the-art Large Language Models (LLMs), automatic code
generation models play a pivotal role in enhancing the productivity and
efficiency of software development coding procedures. As the adoption of LLMs
becomes more widespread in software coding ecosystems, a pressing issue has
emerged: does the generated code contain social biases, such as those related
to age, gender, and race? This issue concerns the integrity, fairness, and
ethical foundation of software applications that depend on the code generated
by these models, yet is under-explored in the literature. This paper presents a
novel bias assessment framework that is specifically designed for code
generation tasks. Based on this framework, we conduct an extensive evaluation
on the bias of nine state-of-the-art LLM-based code generation models. Our
findings reveal that first, 31.45\% to 79.93\% code functions generated by our
evaluated code generation models are biased, and 9.68\% to 37.37\% code
functions' functionality are affected by the bias, which means biases not only
exist in code generation models but in some cases, directly affect the
functionality of the generated code, posing risks of unintended and possibly
harmful software behaviors. To mitigate bias from code generation models, we
propose three mitigation strategies, which can decrease the biased code ratio
to a very low level of 0.4\% to 4.57\%.
- Abstract(参考訳): 最先端の大規模言語モデル(LLM)を利用することで、自動コード生成モデルは、ソフトウェア開発のコーディング手順の生産性と効率を高める上で重要な役割を果たす。
ソフトウェアコーディングのエコシステムにおいて、llmの採用がより普及するにつれて、問題が発生する。 生成されたコードは年齢、性別、人種に関連するような社会的バイアスを含んでいるか?
この問題は、これらのモデルによって生成されたコードに依存するソフトウェアアプリケーションの完全性、公平性、倫理的基盤に関するものである。
本稿では,コード生成タスク用に特別に設計されたバイアスアセスメントフレームワークを提案する。
このフレームワークに基づき、我々は9つの最先端llmベースのコード生成モデルのバイアスを広範囲に評価する。
その結果、まず、評価されたコード生成モデルによって生成された31.45\%から79.93\%のコード関数にバイアスがかかり、9.68\%から37.37\%のコード関数の機能はバイアスによって影響を受けることが判明した。
コード生成モデルからのバイアスを軽減するために、バイアスのあるコード比率を0.4\%から4.57\%に下げる3つの緩和戦略を提案する。
関連論文リスト
- Evaluating Large Language Models with Runtime Behavior of Program Execution [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。
コード推論は、コードLLMの最も重要な能力の1つである。
本稿では,コードの推論能力とLLMの整合性を評価するためのフレームワークであるRevalを提案する。
論文 参考訳(メタデータ) (2024-03-25T05:37:16Z) - When LLM-based Code Generation Meets the Software Development Process [50.82665351100067]
本稿では,ソフトウェア工学の確立した実践に触発されたコード生成フレームワークであるLCGを紹介する。
LLMエージェントは、LCGWaterfall、LCGTDD、LCGScrumといった様々なソフトウェアプロセスモデルをエミュレートする。
我々は,HumanEval,HumanEval-ET,MBPP,MBPP-ETの4つのコード生成ベンチマークでLCGを評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - Generate and Pray: Using SALLMS to Evaluate the Security of LLM
Generated Code [0.7451457983372032]
大規模言語モデルによって生成されたコードが正しいだけでなく、脆弱性もないことを保証することが重要です。
LLM(Large Language Models)を評価するために使われる既存のデータセットは、セキュリティに敏感な真のソフトウェアエンジニアリングタスクを適切に表現していない。
生成されたコードのセキュリティを評価することに焦点を当てたベンチマークが明らかに欠落している。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - A Simple, Yet Effective Approach to Finding Biases in Code Generation [16.094062131137722]
この研究は、現在のコード生成システムが、彼らの大きな言語モデルバックボーンから受け継がれた望ましくないバイアスを示すことを示している。
コーディング課題のモジュラー分解と解析を可能にする「影響ブロック」の概念を提案する。
論文 参考訳(メタデータ) (2022-10-31T15:06:15Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。