論文の概要: Once Upon a Team: Investigating Bias in LLM-Driven Software Team Composition and Task Allocation
- arxiv url: http://arxiv.org/abs/2601.03857v1
- Date: Wed, 07 Jan 2026 12:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.499593
- Title: Once Upon a Team: Investigating Bias in LLM-Driven Software Team Composition and Task Allocation
- Title(参考訳): 一度チームに入ると: LLM駆動のソフトウェアチーム構成とタスク割り当てにおけるバイアスの調査
- Authors: Alessandra Parziale, Gianmario Voria, Valeria Pontillo, Amleto Di Salle, Patrizio Pelliccione, Gemma Catolino, Fabio Palomba,
- Abstract要約: 本研究では,LLMがチーム構成やタスク割り当てに偏りを示すかどうかを検討する。
3つのLSMと3000のシミュレートされた決定を用いて、系統的な差異を見出す。
以上の結果から,LLMはソフトウェア工学の文脈において,人口的不平等を悪化させていることが示唆された。
- 参考スコア(独自算出の注目度): 48.2168236140771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs are increasingly used to boost productivity and support software engineering tasks. However, when applied to socially sensitive decisions such as team composition and task allocation, they raise concerns of fairness. Prior studies have revealed that LLMs may reproduce stereotypes; however, these analyses remain exploratory and examine sensitive attributes in isolation. This study investigates whether LLMs exhibit bias in team composition and task assignment by analyzing the combined effects of candidates' country and pronouns. Using three LLMs and 3,000 simulated decisions, we find systematic disparities: demographic attributes significantly shaped both selection likelihood and task allocation, even when accounting for expertise-related factors. Task distributions further reflected stereotypes, with technical and leadership roles unevenly assigned across groups. Our findings indicate that LLMs exacerbate demographic inequities in software engineering contexts, underscoring the need for fairness-aware assessment.
- Abstract(参考訳): LLMは生産性を高め、ソフトウェアエンジニアリングタスクをサポートするためにますます使われています。
しかし、チーム構成やタスク割り当てといった社会的に敏感な決定に適用すると、公平性に対する懸念が高まる。
以前の研究では、LSMはステレオタイプを再現する可能性があることが示されているが、これらの分析は探索的なままであり、孤立した状態での感度特性を調べる。
本研究では,LLMがチーム構成に偏りを示すかどうかを,候補国と代名詞の複合効果を分析して検討する。
3つの LLM と 3,000 のシミュレートされた決定を用いて、体系的な差異を見出す: 統計学的特徴は、専門的要因を考慮に入れた場合でも、選択可能性とタスク割り当ての両方を著しく形作っている。
タスクの分散はさらにステレオタイプを反映し、グループ間で技術的な役割とリーダーシップの役割が不均一に割り当てられた。
以上の結果から,LLMはソフトウェア工学の文脈における人口動態の不平等を悪化させ,公平性を考慮した評価の必要性を浮き彫りにした。
関連論文リスト
- How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - Evaluating how LLM annotations represent diverse views on contentious topics [3.405231040967506]
生成型大規模言語モデル (LLM) は, 同一データセット内の同じ階層カテゴリーにおいて, 同一方向のバイアスを受ける傾向があることを示す。
自動データアノテーションタスクにLLMを用いた研究者や実践者にとっての意義について論じる。
論文 参考訳(メタデータ) (2025-03-29T22:53:15Z) - Evaluating Bias in LLMs for Job-Resume Matching: Gender, Race, and Education [8.235367170516769]
大規模言語モデル(LLM)は、求職履歴書と候補履歴書を一致させることで、採用を自動化する能力を提供する。
しかし、これらのモデルに固有のバイアスは、不公平な雇用慣行をもたらし、社会的偏見を強化し、職場の多様性を損なう可能性がある。
本研究は、英語と米国の文脈における求人マッチングタスクにおけるLLMの性能と公平性について検討する。
論文 参考訳(メタデータ) (2025-03-24T22:11:22Z) - The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。
本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文 参考訳(メタデータ) (2024-10-07T02:30:18Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - Fairness of ChatGPT [30.969927447499405]
本研究は,ChatGPTを研究事例として,LLMの有効性と妥当性を体系的に評価することを目的とする。
われわれは、ChatGPTの教育、犯罪学、金融、医療などハイテイク分野における業績を評価することに重点を置いている。
この研究は、LLMの公平性のパフォーマンスをより深く理解し、バイアス軽減を促進し、責任あるAIシステムの開発を促進する。
論文 参考訳(メタデータ) (2023-05-22T17:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。