論文の概要: Measuring and Mitigating Bias in Code Generated by Large Language Models
- arxiv url: http://arxiv.org/abs/2606.00049v1
- Date: Tue, 05 May 2026 14:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-07 20:42:22.515503
- Title: Measuring and Mitigating Bias in Code Generated by Large Language Models
- Title(参考訳): 大規模言語モデルによるコード中のバイアスの測定と緩和
- Authors: Yuxi Chen, Yutian Tang, Timothy Storer,
- Abstract要約: 本稿では,コード生成の主流ツールであるGPT-4oとGeminiに着目し,LLM生成コードのバイアス評価のためのフレームワークを提案する。
コードバイアススコア(CBS)と属性変化比(ACR)の2つの指標を使用して、バイアスの頻度と異なる属性の影響度を定量化します。
さらに、生成されたコードのバイアスを軽減することを目的とした、Few-Shot、Chain-of-Thought、Few-Shot Chain-of-Thought、Multi-agentの4つの軽量緩和戦略について検討する。
- 参考スコア(独自算出の注目度): 1.3314577932913607
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are widely recognised for their applications in natural language generation and are increasingly used for code generation tasks. However, concerns about bias in their generated outputs remain significant. This paper focuses on GPT-4o and Gemini, mainstream tools for code generation, and proposes a framework for evaluating bias in LLM-generated code, specifically examining the influence of protected attributes, prompts and web-search capability. We use two metrics: the code bias score (CBS) and the attribute change ratio (ACR), to quantify the prevalence of bias and the degree of influence of different attributes, respectively. In addition, we investigate four lightweight mitigation strategies: Few-Shot, Chain-of-Thought, Few-Shot Chain-of-Thought, and Multi-agent, aimed at mitigating bias in generated code. Our findings reveal that bias remains prevalent across different protected attributes and datasets even after applying mitigation strategies, highlighting the need for more effective approaches to reduce bias in AI-driven code generation systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語生成における応用として広く認識されており、コード生成タスクに広く使われている。
しかし、生成した出力のバイアスに関する懸念は依然として大きい。
本稿では,コード生成の主流ツールである GPT-4o と Gemini に着目し,LLM 生成コードのバイアス評価のためのフレームワークを提案し,保護属性,プロンプト,Web 検索機能の影響について検討する。
コードバイアススコア(CBS)と属性変化比(ACR)の2つの指標を使用して、それぞれの属性のバイアスの頻度と影響度を定量化します。
さらに、生成されたコードのバイアスを軽減することを目的とした、Few-Shot、Chain-of-Thought、Few-Shot Chain-of-Thought、Multi-agentの4つの軽量緩和戦略について検討する。
我々の研究結果は、AI駆動のコード生成システムにおけるバイアスを減らすためのより効果的なアプローチの必要性を強調し、緩和戦略を適用した後でも、さまざまな保護属性やデータセットに偏りが依然として有効であることを明らかにした。
関連論文リスト
- An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - Responsible AI in NLP: GUS-Net Span-Level Bias Detection Dataset and Benchmark for Generalizations, Unfairness, and Stereotypes [6.30817290125825]
本稿では、GUSデータセットとマルチラベルトークンレベル検出器を組み合わせたGUS-Net Frameworkを紹介し、社会バイアスのスパンレベル分析を行う。
GUSデータセットには、複数のドメインにまたがる3,739のユニークなスニペットが含まれ、69,000以上のトークンレベルのアノテーションが含まれている。
マルチラベルトークンレベルの分類としてバイアス検出を定式化し,エンコーダベースモデルとデコーダベース大規模言語モデルの両方をベンチマークする。
論文 参考訳(メタデータ) (2024-10-10T21:51:22Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Learnable Item Tokenization for Generative Recommendation [113.80559032128065]
LETTER (Larnable Tokenizer for generaTivE Recommendation) を提案する。
LETTERは、セマンティック正規化のためのResidual Quantized VAE、協調正規化のためのコントラストアライメント損失、コードの割り当てバイアスを軽減するための多様性損失を組み込んでいる。
論文 参考訳(メタデータ) (2024-05-12T15:49:38Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Bias Testing and Mitigation in LLM-based Code Generation [27.997232692723767]
本稿では,コード生成タスクに特化して設計された新しいバイアステストフレームワークを提案する。
広範に研究されている5つのLLMのコードにおけるバイアスに関する実証的研究を行った。
現在のコード生成シナリオで一般的に使用される5つのバイアス緩和プロンプトについて検討する。
論文 参考訳(メタデータ) (2023-09-03T07:14:49Z) - Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。
我々は,再建基準の代替として,異常スコアの代替尺度を提案した。
提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-24T08:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。