論文の概要: Social Bias in LLM-Generated Code: Benchmark and Mitigation
- arxiv url: http://arxiv.org/abs/2605.00382v3
- Date: Tue, 05 May 2026 08:05:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 14:45:21.226957
- Title: Social Bias in LLM-Generated Code: Benchmark and Mitigation
- Title(参考訳): LLM生成コードのソーシャルバイアス:ベンチマークと緩和
- Authors: Fazle Rabbi, Lin Ling, Song Wang, Jinqiu Yang,
- Abstract要約: 大きな言語モデル(LLM)は、人口統計学的公正性が重要である人間中心のアプリケーションのためのコードを生成するために、ますます多くデプロイされている。
既存の評価は機能的正当性にのみ焦点が当てられており、LLM生成コードの社会的偏見はほとんど検討されていない。
FMA(Fairness Monitor Agent)は,既存のコード生成パイプラインを修正せずにプラグインするモジュールコンポーネントである。
- 参考スコア(独自算出の注目度): 10.39413030802123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed to generate code for human-centered applications where demographic fairness is critical. However, existing evaluations focus almost exclusively on functional correctness, leaving social bias in LLM-generated code largely unexamined. Extending our prior work on Solar, we conduct a comprehensive empirical study using SocialBias-Bench, a benchmark of 343 real-world coding tasks spanning seven demographic dimensions. We evaluate four prominent LLMs and find severe bias across all models, with Code Bias Scores reaching up to 60.58%. We further show that standard prompt-level interventions, such as Chain-of-Thought reasoning and fairness persona assignment, inadvertently amplify bias rather than reduce it. We then investigate whether structured multi-agent software process frameworks can improve fairness, finding that structured pipelines reduce bias when early roles correctly scope what the code should and should not consider. However, adding explicit fairness instructions to all agent roles produces worse outcomes than providing none, suggesting that diffused responsibility goes unaddressed. To address these limitations, we propose the Fairness Monitor Agent (FMA), a modular component that plugs into any existing code generation pipeline without modifying it. FMA analyzes the task description to determine which attributes should be considered or restricted, then detects and corrects violations through an iterative review process, without requiring an executable test suite. Evaluated on all 343 tasks, FMA reduces bias by 65.1% compared to a developer agent alone and improves functional correctness from 75.80% to 83.97%, outperforming all other studied approaches.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人口統計学的公正性が重要である人間中心のアプリケーションのためのコードを生成するために、ますます多くデプロイされている。
しかし、既存の評価は機能的正当性にのみ焦点が当てられており、LLM生成コードの社会的偏見はほとんど検討されていない。
ソーラーに関するこれまでの研究を拡張して、社会バイアスベンチ(SocialBias-Bench)を用いた総合的な実証研究を実施しました。
Code Bias Scoresは最大60.58%に達しています。
さらに、チェーン・オブ・ライトの推論や公平なペルソナの割り当てのような標準的なプロンプトレベルの介入は、バイアスを減らすのではなく、不注意にバイアスを増幅することを示します。
次に、構造化されたマルチエージェントソフトウェアプロセスフレームワークが公正性を向上できるかどうかを調べ、構造化されたパイプラインは、初期の役割がコードが考慮すべきこととすべきでないことを正しくスコープする場合、バイアスを低減します。
しかしながら、すべてのエージェントロールに明示的な公平性指示を加えることは、提供しないよりも悪い結果をもたらす。
これらの制限に対処するため、Fairness Monitor Agent (FMA) を提案する。
FMAはタスク記述を分析して、どの属性を検討または制限するかを決定し、実行可能なテストスイートを必要とせずに反復的なレビュープロセスを通じて違反を検出し、修正する。
全ての343タスクで評価され、FMAは開発者エージェント単独と比較してバイアスを65.1%削減し、機能的正しさを75.80%から83.97%に改善し、他のすべての研究手法よりも優れている。
関連論文リスト
- Bias in the Loop: Auditing LLM-as-a-Judge for Software Engineering [0.0]
大規模な言語モデルは、コードのアーティファクトを評価するために裁判官としてますます使われています。
現在のプラクティスには、信頼性とバイアスの原則的な説明が欠けている。
計測ファーストレンズを用いたLCM-as-a-Judgeの符号化について検討する。
論文 参考訳(メタデータ) (2026-04-18T02:35:05Z) - Evaluating LLMs in Finance Requires Explicit Bias Consideration [88.38155218924999]
ファイナンス固有のバイアスは、パフォーマンスを低下させ、バックテストを汚染し、報告された結果をデプロイメントのクレームに役に立たないものにする。
一つのバイアスが28%以上の研究で議論されることはない。
本稿では,バイアス診断と将来のシステム設計のための最小限の要件を満たす構造的妥当性フレームワークと評価チェックリストを提案する。
論文 参考訳(メタデータ) (2026-02-15T17:02:01Z) - Summary-Mediated Repair: Can LLMs use code summarisation as a tool for program repair? [0.0]
大きな言語モデル(LLM)は、強いベンチマーク性能にもかかわらず、微妙な実装レベルのバグのあるコードを生成することが多い。
本稿では,プログラム修復のためのプロンプトのみのパイプラインである要約型修復を提案する。
論文 参考訳(メタデータ) (2025-11-24T05:33:38Z) - HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - Clotho: Measuring Task-Specific Pre-Generation Test Adequacy for LLM Inputs [6.862079218077768]
特定のタスクで大規模言語モデルをテストするのは難しくてコストがかかります。
重要な課題は、タスクの要求を反映した方法で入力精度を評価することである。
タスク固有のプレジェネレーションアプライバシ尺度であるCLOTHOを導入する。
論文 参考訳(メタデータ) (2025-09-22T02:34:09Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - FairCoder: Evaluating Social Bias of LLMs in Code Generation [25.358230310973248]
コード生成における社会的バイアスを評価するための新しいベンチマークであるFairCoderを紹介する。
このベンチマークでは、フェアネスのパフォーマンスを評価するために、3つのメトリクスが設計されている。
その結果、全てのLSMが社会的偏見を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-01-09T17:42:23Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。
得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文 参考訳(メタデータ) (2023-12-13T18:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。