Fugu-MT 論文翻訳(概要): Bias Testing and Mitigation in LLM-based Code Generation

論文の概要: Bias Testing and Mitigation in LLM-based Code Generation

arxiv url: http://arxiv.org/abs/2309.14345v4
Date: Fri, 21 Mar 2025 06:36:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-24 15:40:09.568023
Title: Bias Testing and Mitigation in LLM-based Code Generation
Title（参考訳）: LLMに基づくコード生成におけるバイアステストと緩和
Authors: Dong Huang, Jie M. Zhang, Qingwen Bu, Xiaofei Xie, Junjie Chen, Heming Cui,
Abstract要約: 本稿では,コード生成タスクに特化して設計された新しいバイアステストフレームワークを提案する。広範に研究されている5つのLLMのコードにおけるバイアスに関する実証的研究を行った。現在のコード生成シナリオで一般的に使用される5つのバイアス緩和プロンプトについて検討する。
参考スコア（独自算出の注目度）: 27.997232692723767
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As the adoption of LLMs becomes more widespread in software coding ecosystems, a pressing issue has emerged: does the generated code contain social bias and unfairness, such as those related to age, gender, and race? This issue concerns the integrity, fairness, and ethical foundation of software applications that depend on the code generated by these models but are underexplored in the literature. This paper presents a novel bias testing framework that is specifically designed for code generation tasks. Based on this framework, we conduct an extensive empirical study on the biases in code generated by five widely studied LLMs (i.e., PALM-2-CodeChat-bison, Claude-instant-1, GPT-3.5-turbo, GPT-4-turbo, and GPT-4). Our findings reveal that biases are prevalent. For example, 13.47% to 49.10% of the codes generated by these LLMs have biased behaviors towards gender. Moreover, we study five bias mitigation prompt strategies that are commonly used in current code generation scenarios, i.e., zero-shot, one-shot, few-shot, and two Chain-of-Thought (CoT) prompts, with and without provided feedback-driven refinement. Our evaluation results illustrate that using direct prompt engineering strategies has limited effectiveness in mitigating bias, but our test execution feedback can help to reduce the ratio of code biases to a large extent (e.g., from 59.88% to 4.79% for GPT-4).
Abstract（参考訳）: LLMの採用がソフトウェアコーディングのエコシステムに広まるにつれ、その発生したコードは、年齢、性別、人種など、社会的偏見と不公平さを含んでいるのだろうか? この問題は、これらのモデルによって生成されたコードに依存するが、文献で過小評価されているソフトウェアアプリケーションの完全性、公平性、倫理的基盤に関するものである。本稿では,コード生成タスクに特化して設計された新しいバイアステストフレームワークを提案する。この枠組みに基づいて、広く研究されている5つのLCM(PALM-2-CodeChat-bison, Claude-instant-1, GPT-3.5-turbo, GPT-4-turbo, GPT-4)によって生成されるコードのバイアスに関する広範な実証的研究を行う。以上の結果から, 偏見が顕著であることが明らかとなった。例えば、LLMが生成したコードの13.47%から49.10%は、性別に対する振る舞いに偏っている。さらに、ゼロショット、ワンショット、少数ショット、および2つのチェーン・オブ・ソート(CoT)プロンプトなど、現在のコード生成シナリオで一般的に使用される5つのバイアス緩和プロンプトについて検討する。評価結果は,直接的迅速なエンジニアリング戦略を用いることでバイアスを軽減できるが,テスト実行フィードバックは,コードバイアスの比率を広い範囲(例えば,GPT-4では59.88%から4.79%)に下げる上で有効であることを示している。

関連論文リスト

From Bias To Improved Prompts: A Case Study of Bias Mitigation of Clone Detection Models [5.874997638802244]
クローンコード検出のための生成型大規模言語モデルの適合性を評価する。 LLMの既知の問題は、これらのモデルの性能が与えられた入力プロンプトに基づいて変動する、バイアスを誘発する可能性である。我々の分析では、8つの異なるプロンプトバイアスのカテゴリを同定し、これらのバイアスを活用する方法により、F1スコアにおいて最大10.81%の大幅な改善が得られた。
論文参考訳（メタデータ） (2025-05-08T22:38:10Z)
Comparing Human and LLM Generated Code: The Jury is Still Out! [8.456554883523472]
大規模言語モデル(LLM)と人間プログラマによるPythonのソフトウェアコード作成の有効性を比較した。 Pylint、Radon、Bandit、テストケースなど、さまざまな静的分析ベンチマークを使用しています。我々は、人間とGPT-4の両方が生成したコードのセキュリティ欠陥を観察するが、GPT-4コードはより深刻な外れ値を含んでいた。
論文参考訳（メタデータ） (2025-01-28T11:11:36Z)
FairCoder: Evaluating Social Bias of LLMs in Code Generation [25.358230310973248]
コード生成における社会的バイアスを評価するための新しいベンチマークであるFairCoderを紹介する。このベンチマークでは、フェアネスのパフォーマンスを評価するために、3つのメトリクスが設計されている。その結果、全てのLSMが社会的偏見を示すことが明らかとなった。
論文参考訳（メタデータ） (2025-01-09T17:42:23Z)
Unseen Horizons: Unveiling the Real Capability of LLM Code Generation Beyond the Familiar [15.421030528350212]
我々は,大規模な言語モデルを評価するために,コード難読化ベースのベンチマークOBFUSEVALを構築した。私たちは3段階の戦略を使って、記述やコード、コンテキストの依存関係を曖昧にしています。その結果, 難燃後, 試験合格率の平均低下率は62.5%に達することがわかった。
論文参考訳（メタデータ） (2024-12-11T05:31:39Z)
Comparing Robustness Against Adversarial Attacks in Code Generation: LLM-Generated vs. Human-Written [11.16693333878553]
本稿では,人間が記述したコードに微調整したPTMC(Pre-trained Models of Code)の対角的ロバスト性を評価するための実証的研究を紹介する。 2つのデータセット、2つの最先端PTMC、2つの堅牢性評価基準、3つのメトリクスを実験で用いた。
論文参考訳（メタデータ） (2024-11-15T20:25:32Z)
A Comprehensive Survey of AI-Driven Advancements and Techniques in Automated Program Repair and Code Generation [0.0]
最近27の論文がレビューされ、2つのグループに分けられた。最初のグループは、意味的エラーの特定を含む、バグの検出と修復のための新しいメソッドで構成されている。 2つ目のグループはコード生成に精通しており、プログラミングとタスク固有のモデルのために微調整された汎用LLMの概要を提供している。また、識別子認識トレーニング、命令レベルでの微調整、セマンティックコード構造の導入など、コード生成を改善する方法も提示されている。
論文参考訳（メタデータ） (2024-11-12T06:47:54Z)
A Deep Dive Into Large Language Model Code Generation Mistakes: What and Why? [9.246899995643918]
大規模な言語モデルは、仕様から逸脱する欠陥コードを生成することができる。広範囲な手動分析により, ノンシンタクティックな誤りの7つのカテゴリーが同定された。評価の結果,LPMの誤りの原因を特定すると,ReActプロンプト技術を用いたGPT-4が最大0.65のF1スコアを達成できることがわかった。
論文参考訳（メタデータ） (2024-11-03T02:47:03Z)
$\mathbb{USCD}$: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding [64.00025564372095]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。幻覚の影響(例えば出力ノイズ)は、LLMが1パスで高品質なコードを生成するのを難しくする。単純かつ効果的なtextbfuncertainty-aware textbf select textbfcontrastive textbfdecodingを提案する。
論文参考訳（メタデータ） (2024-09-09T02:07:41Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文参考訳（メタデータ） (2024-05-25T08:57:28Z)
Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文参考訳（メタデータ） (2024-04-11T08:30:46Z)
Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。コード推論は、コードLLMの最も重要な能力の1つである。本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文参考訳（メタデータ） (2024-03-25T05:37:16Z)
GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-11T12:02:14Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)
Do Large Language Models Pay Similar Attention Like Human Programmers When Generating Code? [10.249771123421432]
我々は,Large Language Models (LLMs) が,コード生成中に人間のプログラマと同じタスク記述に係わるかどうかを検討する。手動で211の間違ったコードスニペットを分析し、多くのコード生成エラーを説明するのに使える5つの注意パターンを見つけました。この結果から,人間によるLLMの理解性向上とプログラマの信頼度向上の必要性が浮き彫りになった。
論文参考訳（メタデータ） (2023-06-02T00:57:03Z)
ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文参考訳（メタデータ） (2022-12-20T14:11:31Z)
Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-06-04T22:01:05Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。