論文の概要: Bias Testing and Mitigation in LLM-based Code Generation
- arxiv url: http://arxiv.org/abs/2309.14345v4
- Date: Fri, 21 Mar 2025 06:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:54:41.428954
- Title: Bias Testing and Mitigation in LLM-based Code Generation
- Title(参考訳): LLMに基づくコード生成におけるバイアステストと緩和
- Authors: Dong Huang, Jie M. Zhang, Qingwen Bu, Xiaofei Xie, Junjie Chen, Heming Cui,
- Abstract要約: 本稿では,コード生成タスクに特化して設計された新しいバイアステストフレームワークを提案する。
広範に研究されている5つのLLMのコードにおけるバイアスに関する実証的研究を行った。
現在のコード生成シナリオで一般的に使用される5つのバイアス緩和プロンプトについて検討する。
- 参考スコア(独自算出の注目度): 27.997232692723767
- License:
- Abstract: As the adoption of LLMs becomes more widespread in software coding ecosystems, a pressing issue has emerged: does the generated code contain social bias and unfairness, such as those related to age, gender, and race? This issue concerns the integrity, fairness, and ethical foundation of software applications that depend on the code generated by these models but are underexplored in the literature. This paper presents a novel bias testing framework that is specifically designed for code generation tasks. Based on this framework, we conduct an extensive empirical study on the biases in code generated by five widely studied LLMs (i.e., PALM-2-CodeChat-bison, Claude-instant-1, GPT-3.5-turbo, GPT-4-turbo, and GPT-4). Our findings reveal that biases are prevalent. For example, 13.47% to 49.10% of the codes generated by these LLMs have biased behaviors towards gender. Moreover, we study five bias mitigation prompt strategies that are commonly used in current code generation scenarios, i.e., zero-shot, one-shot, few-shot, and two Chain-of-Thought (CoT) prompts, with and without provided feedback-driven refinement. Our evaluation results illustrate that using direct prompt engineering strategies has limited effectiveness in mitigating bias, but our test execution feedback can help to reduce the ratio of code biases to a large extent (e.g., from 59.88% to 4.79% for GPT-4).
- Abstract(参考訳): LLMの採用がソフトウェアコーディングのエコシステムに広まるにつれ、その発生したコードは、年齢、性別、人種など、社会的偏見と不公平さを含んでいるのだろうか?
この問題は、これらのモデルによって生成されたコードに依存するが、文献で過小評価されているソフトウェアアプリケーションの完全性、公平性、倫理的基盤に関するものである。
本稿では,コード生成タスクに特化して設計された新しいバイアステストフレームワークを提案する。
この枠組みに基づいて、広く研究されている5つのLCM(PALM-2-CodeChat-bison, Claude-instant-1, GPT-3.5-turbo, GPT-4-turbo, GPT-4)によって生成されるコードのバイアスに関する広範な実証的研究を行う。
以上の結果から, 偏見が顕著であることが明らかとなった。
例えば、LLMが生成したコードの13.47%から49.10%は、性別に対する振る舞いに偏っている。
さらに、ゼロショット、ワンショット、少数ショット、および2つのチェーン・オブ・ソート(CoT)プロンプトなど、現在のコード生成シナリオで一般的に使用される5つのバイアス緩和プロンプトについて検討する。
評価結果は,直接的迅速なエンジニアリング戦略を用いることでバイアスを軽減できるが,テスト実行フィードバックは,コードバイアスの比率を広い範囲(例えば,GPT-4では59.88%から4.79%)に下げる上で有効であることを示している。
関連論文リスト
- Resource-Efficient & Effective Code Summarization [3.512140256677132]
QLoRAのようなGreenAI技術は、大規模モデルのサステナビリティを扱うための有望なパスを提供する。
本研究では,Python と Java の2つのプログラミング言語にまたがる最先端の CLM の評価を行った。
その結果、QLoRAはコード要約のためのCLMを効率的に微調整できることがわかった。
論文 参考訳(メタデータ) (2025-02-05T21:06:30Z) - FairCode: Evaluating Social Bias of LLMs in Code Generation [25.358230310973248]
コード生成のバイアスを評価するための新しいベンチマークであるFairCodeを紹介します。
FairCodeは機能実装とテストケース生成という2つのタスクで構成されている。
このベンチマークでモデル性能を評価するための新しい指標であるFairScoreを提案する。
論文 参考訳(メタデータ) (2025-01-09T17:42:23Z) - Comparing Robustness Against Adversarial Attacks in Code Generation: LLM-Generated vs. Human-Written [11.16693333878553]
本稿では,人間が記述したコードに微調整したPTMC(Pre-trained Models of Code)の対角的ロバスト性を評価するための実証的研究を紹介する。
2つのデータセット、2つの最先端PTMC、2つの堅牢性評価基準、3つのメトリクスを実験で用いた。
論文 参考訳(メタデータ) (2024-11-15T20:25:32Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Do Large Language Models Pay Similar Attention Like Human Programmers When Generating Code? [10.249771123421432]
我々は,Large Language Models (LLMs) が,コード生成中に人間のプログラマと同じタスク記述に係わるかどうかを検討する。
手動で211の間違ったコードスニペットを分析し、多くのコード生成エラーを説明するのに使える5つの注意パターンを見つけました。
この結果から,人間によるLLMの理解性向上とプログラマの信頼度向上の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2023-06-02T00:57:03Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。