Fugu-MT 論文翻訳(概要): Bias Testing and Mitigation in LLM-based Code Generation

論文の概要: Bias Testing and Mitigation in LLM-based Code Generation

arxiv url: http://arxiv.org/abs/2309.14345v2
Date: Tue, 9 Jan 2024 09:19:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 19:57:42.049593
Title: Bias Testing and Mitigation in LLM-based Code Generation
Title（参考訳）: LLMに基づくコード生成におけるバイアステストと緩和
Authors: Dong Huang, Qingwen Bu, Jie Zhang, Xiaofei Xie, Junjie Chen, Heming Cui
Abstract要約: 本稿では,コード生成タスクに特化して設計された新しいバイアステストフレームワークを提案する。調査対象のモデルが生成するコード関数の20.29%から44.93%が偏りに敏感なタスクを扱う際に偏りがあることがわかった。コード生成モデルのバイアスを軽減するため、我々は5つのバイアス軽減プロンプト戦略を評価する。
参考スコア（独自算出の注目度）: 25.2052136310021
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Utilizing state-of-the-art Large Language Models (LLMs), automatic code generation models play a pivotal role in enhancing the productivity of software development procedures. As the adoption of LLMs becomes more widespread in software coding ecosystems, a pressing issue has emerged: does the generated code contain social bias and unfairness, such as those related to age, gender, and race? This issue concerns the integrity, fairness, and ethical foundation of software applications that depend on the code generated by these models, yet is under-explored in the literature. This paper presents a novel bias testing framework that is specifically designed for code generation tasks. Based on this framework, we conduct an extensive evaluation of the bias in code generated by five state-of-the-art LLMs. Our findings reveal that 20.29% to 44.93% code functions generated by the models under study are biased when handling bias sensitive tasks (i.e., tasks that involve sensitive attributes such as age and gender). This indicates that the existing LLMs can be unfair in code generation, posing risks of unintended and harmful software behaviors. To mitigate bias for code generation models, we evaluate five bias mitigation prompt strategies, i.e., utilizing bias testing results to refine the code (zero-shot), one-, few-shot, and two Chain-of-Thought (CoT) prompts. Our evaluation results illustrate that these strategies are all effective in mitigating bias. Overall, one-shot and few-shot learning are the two most effective. For GPT-4, 80% to 90% code bias can be removed with one-shot learning.
Abstract（参考訳）: 最先端の大規模言語モデル(llms)を利用することで、自動コード生成モデルはソフトウェア開発手順の生産性向上に重要な役割を果たします。ソフトウェアコーディングのエコシステムにおいて、llmの採用がより普及するにつれて、問題が発生する。生成されたコードには、年齢、性別、人種など、社会的バイアスと不公平性が含まれているのだろうか? この問題は、これらのモデルによって生成されたコードに依存するソフトウェアアプリケーションの完全性、公平性、倫理的基盤に関するものである。本稿では,コード生成タスク用に特別に設計された新しいバイアステストフレームワークを提案する。この枠組みに基づいて、5つの最先端LLMが生成するコードのバイアスを広範囲に評価する。調査対象のモデルが生成するコード関数の20.29%から44.93%は、偏りに敏感なタスク(年齢や性別などの敏感な属性を含むタスク)を扱う際に偏りがある。これは、既存のLLMがコード生成において不公平であり、意図しない、有害なソフトウェア行動のリスクがあることを示している。コード生成モデルのバイアスを軽減するため、バイアステスト結果を利用してコード(ゼロショット)、ワンショット、少数ショット、および2つのチェーン・オブ・ソート(CoT)プロンプトを改良する5つのバイアス緩和プロンプト戦略を評価する。評価結果は,これらの戦略がバイアス軽減に有効であることを示している。全体として、一発学習と二発学習が最も効果的である。 GPT-4では、80%から90%のコードバイアスをワンショット学習で除去できる。

関連論文リスト

From Bias To Improved Prompts: A Case Study of Bias Mitigation of Clone Detection Models [5.874997638802244]
クローンコード検出のための生成型大規模言語モデルの適合性を評価する。 LLMの既知の問題は、これらのモデルの性能が与えられた入力プロンプトに基づいて変動する、バイアスを誘発する可能性である。我々の分析では、8つの異なるプロンプトバイアスのカテゴリを同定し、これらのバイアスを活用する方法により、F1スコアにおいて最大10.81%の大幅な改善が得られた。
論文参考訳（メタデータ） (2025-05-08T22:38:10Z)
Comparing Human and LLM Generated Code: The Jury is Still Out! [8.456554883523472]
大規模言語モデル(LLM)と人間プログラマによるPythonのソフトウェアコード作成の有効性を比較した。 Pylint、Radon、Bandit、テストケースなど、さまざまな静的分析ベンチマークを使用しています。我々は、人間とGPT-4の両方が生成したコードのセキュリティ欠陥を観察するが、GPT-4コードはより深刻な外れ値を含んでいた。
論文参考訳（メタデータ） (2025-01-28T11:11:36Z)
FairCoder: Evaluating Social Bias of LLMs in Code Generation [25.358230310973248]
コード生成における社会的バイアスを評価するための新しいベンチマークであるFairCoderを紹介する。このベンチマークでは、フェアネスのパフォーマンスを評価するために、3つのメトリクスが設計されている。その結果、全てのLSMが社会的偏見を示すことが明らかとなった。
論文参考訳（メタデータ） (2025-01-09T17:42:23Z)
Unseen Horizons: Unveiling the Real Capability of LLM Code Generation Beyond the Familiar [15.421030528350212]
我々は,大規模な言語モデルを評価するために,コード難読化ベースのベンチマークOBFUSEVALを構築した。私たちは3段階の戦略を使って、記述やコード、コンテキストの依存関係を曖昧にしています。その結果, 難燃後, 試験合格率の平均低下率は62.5%に達することがわかった。
論文参考訳（メタデータ） (2024-12-11T05:31:39Z)
Comparing Robustness Against Adversarial Attacks in Code Generation: LLM-Generated vs. Human-Written [11.16693333878553]
本稿では,人間が記述したコードに微調整したPTMC(Pre-trained Models of Code)の対角的ロバスト性を評価するための実証的研究を紹介する。 2つのデータセット、2つの最先端PTMC、2つの堅牢性評価基準、3つのメトリクスを実験で用いた。
論文参考訳（メタデータ） (2024-11-15T20:25:32Z)
A Comprehensive Survey of AI-Driven Advancements and Techniques in Automated Program Repair and Code Generation [0.0]
最近27の論文がレビューされ、2つのグループに分けられた。最初のグループは、意味的エラーの特定を含む、バグの検出と修復のための新しいメソッドで構成されている。 2つ目のグループはコード生成に精通しており、プログラミングとタスク固有のモデルのために微調整された汎用LLMの概要を提供している。また、識別子認識トレーニング、命令レベルでの微調整、セマンティックコード構造の導入など、コード生成を改善する方法も提示されている。
論文参考訳（メタデータ） (2024-11-12T06:47:54Z)
A Deep Dive Into Large Language Model Code Generation Mistakes: What and Why? [9.246899995643918]
大規模な言語モデルは、仕様から逸脱する欠陥コードを生成することができる。広範囲な手動分析により, ノンシンタクティックな誤りの7つのカテゴリーが同定された。評価の結果,LPMの誤りの原因を特定すると,ReActプロンプト技術を用いたGPT-4が最大0.65のF1スコアを達成できることがわかった。
論文参考訳（メタデータ） (2024-11-03T02:47:03Z)
$\mathbb{USCD}$: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding [64.00025564372095]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。幻覚の影響(例えば出力ノイズ)は、LLMが1パスで高品質なコードを生成するのを難しくする。単純かつ効果的なtextbfuncertainty-aware textbf select textbfcontrastive textbfdecodingを提案する。
論文参考訳（メタデータ） (2024-09-09T02:07:41Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文参考訳（メタデータ） (2024-05-25T08:57:28Z)
Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文参考訳（メタデータ） (2024-04-11T08:30:46Z)
Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。コード推論は、コードLLMの最も重要な能力の1つである。本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文参考訳（メタデータ） (2024-03-25T05:37:16Z)
GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-11T12:02:14Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)
Do Large Language Models Pay Similar Attention Like Human Programmers When Generating Code? [10.249771123421432]
我々は,Large Language Models (LLMs) が,コード生成中に人間のプログラマと同じタスク記述に係わるかどうかを検討する。手動で211の間違ったコードスニペットを分析し、多くのコード生成エラーを説明するのに使える5つの注意パターンを見つけました。この結果から,人間によるLLMの理解性向上とプログラマの信頼度向上の必要性が浮き彫りになった。
論文参考訳（メタデータ） (2023-06-02T00:57:03Z)
ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文参考訳（メタデータ） (2022-12-20T14:11:31Z)
Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-06-04T22:01:05Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。