論文の概要: Gendered Prompting and LLM Code Review: How Gender Cues in the Prompt Shape Code Quality and Evaluation
- arxiv url: http://arxiv.org/abs/2603.24359v1
- Date: Wed, 25 Mar 2026 14:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.336028
- Title: Gendered Prompting and LLM Code Review: How Gender Cues in the Prompt Shape Code Quality and Evaluation
- Title(参考訳): Gendered Prompting and LLM Code Review: Prompt Shape Codeの品質と評価
- Authors: Lynn Janzen, Üveys Eroglu, Dorothea Kolossa, Pia Knöferle, Sebastian Möller, Vera Schmitt, Veronika Solopova,
- Abstract要約: 本稿では,男女関係の言語的差異が,コード生成結果やコードレビュー決定に影響を及ぼすかどうかを検証した。
ジェンダーに関連のあるアクセリングスタイルの違いは微妙だが測定可能であり、女性によるプロンプトはより間接的で関係のある言語を示す。
制御された実験では、性別コードされたプロンプトスタイルがコードの長さと保守性に影響を与える一方で、レビュアーの振る舞いはモデルによって異なることが示されている。
- 参考スコア(独自算出の注目度): 9.150908614658537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are increasingly embedded in programming workflows, from code generation to automated code review. Yet, how gendered communication styles interact with LLM-assisted programming and code review remains underexplored. We present a mixed-methods pilot study examining whether gender-related linguistic differences in prompts influence code generation outcomes and code review decisions. Across three complementary studies, we analyze (i) collected real-world coding prompts, (ii) a controlled user study, in which developers solve identical programming tasks with LLM assistance, and (iii) an LLM-based simulated evaluation framework that systematically varies gender-coded prompt styles and reviewer personas. We find that gender-related differences in prompting style are subtle but measurable, with female-authored prompts exhibiting more indirect and involved language, which does not translate into consistent gaps in functional correctness or static code quality. For LLM code review, in contrast, we observe systematic biases: on average, models approve female-authored code more, despite comparable quality. Controlled experiments show that gender-coded prompt style affect code length and maintainability, while reviewer behavior varies across models. Our findings suggest that fairness risks in LLM-assisted programming arise less from generation accuracy than from LLM evaluation, as LLMs are increasingly deployed as automated code reviewers.
- Abstract(参考訳): LLMは、コード生成から自動コードレビューまで、プログラミングワークフローにますます組み込まれています。
しかし、ジェンダー化されたコミュニケーションスタイルがLLM支援プログラミングやコードレビューとどのように相互作用するかは、まだ未定である。
本稿では,男女関係の言語的差異が,コード生成結果やコードレビュー決定に影響を及ぼすかどうかを検証した。
3つの相補的な研究、分析
(i)現実世界のコードプロンプトの収集
二 開発者がLLMアシストで同一のプログラミングタスクを解くための制御されたユーザスタディ
3)ジェンダーコードされたプロンプトスタイルとレビュアーペルソナを体系的に変化させるLCMに基づくシミュレーション評価フレームワーク。
ジェンダー関連の違いは微妙だが測定可能であり、女性によるプロンプトは、より間接的で関連する言語を示しており、機能的正当性や静的コード品質に一貫したギャップにはならない。
対照的に、LLMのコードレビューでは、系統的なバイアスが観察される。平均的に、モデルでは、同等の品質にもかかわらず、女性が承認するコードの方が多い。
制御された実験では、性別コードされたプロンプトスタイルがコードの長さと保守性に影響を与える一方で、レビュアーの振る舞いはモデルによって異なることが示されている。
自動コードレビュアとしてLLMがますます普及しているため,LLM支援プログラミングにおける公平性リスクは,LLM評価による生成精度より低いことが示唆された。
関連論文リスト
- CodeSimpleQA: Scaling Factuality in Code Large Language Models [55.705748501461294]
本稿では,コード関連質問への回答において,LLMの実際の精度を評価するための総合的なベンチマークであるCodeSimpleQAを提案する。
また,66万サンプルの大規模インストラクションコーパスであるCodeSimpleQA-Instructを作成し,教師付き微調整と強化学習を組み合わせたポストトレーニングフレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-22T14:27:17Z) - Can Large Language Models Serve as Evaluators for Code Summarization? [47.21347974031545]
LLM(Large Language Models)は、コード要約手法の効果的な評価手法である。
LLMはエージェントに、コードレビュアー、コード作者、コードエディタ、システムアナリストなどの様々な役割を演じるよう促す。
CoDERPEは、人間の評価と81.59%のスピアマン相関を達成し、既存のBERTScoreの基準を17.27%上回った。
論文 参考訳(メタデータ) (2024-12-02T09:56:18Z) - Human-Like Code Quality Evaluation through LLM-based Recursive Semantic Comprehension [39.277408536940825]
コード品質評価には、特定の問題ステートメントに対する参照コードに基づいて生成されたコード品質を評価することが含まれる。
現在、コード品質の評価には、マッチベースの評価と実行ベースの評価の2つの主要な形態がある。
論文 参考訳(メタデータ) (2024-11-30T01:49:25Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - HumanEvalComm: Benchmarking the Communication Competence of Code Generation for LLMs and LLM Agent [2.8391355909797644]
大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。
LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。
論文 参考訳(メタデータ) (2024-05-31T22:06:18Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Mutation-based Consistency Testing for Evaluating the Code Understanding
Capability of LLMs [5.549095839198671]
大きな言語モデル(LLM)は、自然言語とプログラミング言語の両方を処理する際、顕著な能力を示している。
本稿では,LLMのコード理解性能を評価する新しい手法を提案し,特にコードと記述の微妙な差異に着目した。
演算子置換やステートメント削除など,さまざまなタイプのコード突然変異を適用して,一貫性のないコード記述ペアを生成する。
我々は,現在最先端のコード生成ベンチマークであるHumanEval-Xを用いて,GPT-3.5とGPT-4の2つのLLMのケーススタディを行う。
論文 参考訳(メタデータ) (2024-01-11T14:27:43Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。