論文の概要: Fairness in Multi-Agent Systems for Software Engineering: An SDLC-Oriented Rapid Review
- arxiv url: http://arxiv.org/abs/2604.13103v1
- Date: Fri, 10 Apr 2026 13:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.198892
- Title: Fairness in Multi-Agent Systems for Software Engineering: An SDLC-Oriented Rapid Review
- Title(参考訳): ソフトウェア工学のためのマルチエージェントシステムの公正性:SDLC指向のラピッドレビュー
- Authors: Corey Yang-Smith, Ronnie de Souza Santos, Ahmad Abdellatif,
- Abstract要約: トランスフォーマーベースの大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ソフトウェア開発ライフサイクル (SDLC) 全体にますます浸透している。
我々は,MASにおける公平性に関する最近の研究を迅速にレビューし,LLM対応の設定とソフトウェア工学との関連性を強調した。
- 参考スコア(独自算出の注目度): 3.0969191504482243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based large language models (LLMs) and multi-agent systems (MAS) are increasingly embedded across the software development lifecycle (SDLC), yet their fairness implications for developer-facing tools remain underexplored despite their growing role in shaping what code is written, reviewed, and released. We present a rapid review of recent work on fairness in MAS, emphasizing LLM-enabled settings and relevance to software engineering. Starting from an initial set of 350 papers, we screened and filtered the corpus for relevance, retaining 18 studies for final analysis. Across these 18 studies, fairness is framed as a combination of trustworthy AI principles, bias reduction across groups, and interactional dynamics in collectives, while evaluation spans accuracy metrics on bias benchmarks, demographic disparity measures, and emergent MAS-specific notions such as conformity and bias amplification. Reported harms include representational, quality-of-service, security and privacy, and governance failures, which we relate to SDLC stages where evidence is most and least developed. We identify three persistent gaps: (1) fragmented, rarely MAS-specific evaluation practices that limit comparability, (2) limited generalization due to simplified environments and narrow attribute coverage, and (3) scarce, weakly evaluated mitigation and governance mechanisms aligned to real software workflows. These findings suggest MAS fairness research is not yet ready to support deployable, fairness-assured software systems, motivating MAS-aware benchmarks, consistent protocols, and lifecycle-spanning governance.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ソフトウェア開発ライフサイクル (SDLC) 全体にますます浸透している。
我々は,MASにおける公平性に関する最近の研究を迅速にレビューし,LLM対応の設定とソフトウェア工学との関連性を強調した。
350枚の論文から始めて, コーパスを検査・濾過して関連性を確認し, 最終分析のために18個の研究を継続した。
これらの18の研究では、公正性は信頼に値するAIの原則、グループ間のバイアス低減、集団間の相互作用のダイナミクスの組み合わせとして構成され、評価はバイアスベンチマーク、人口格差測定、および整合性やバイアス増幅のような創発的なMAS固有の概念の精度にまたがる。
報告された害には、表現力、品質保証、セキュリティとプライバシ、ガバナンスの失敗などが含まれます。
我々は,(1)コンパビリティを制限した断片化,まれにMAS固有の評価プラクティス,(2)単純化された環境と狭い属性カバレッジによる限定的な一般化,(3)実際のソフトウェアワークフローに適合した弱評価緩和とガバナンスメカニズムの3つの持続的ギャップを識別する。
これらの結果は、MASフェアネス研究が、デプロイ可能でフェアネスを保証するソフトウェアシステム、MAS対応ベンチマークのモチベーション、一貫したプロトコル、ライフサイクルスパンニングガバナンスをサポートする準備ができていないことを示唆している。
関連論文リスト
- TraceLLM: Leveraging Large Language Models with Prompt Engineering for Enhanced Requirements Traceability [4.517933493143603]
本稿では,要求トレーサビリティ向上のためのフレームワークであるTraceLLMを紹介する。
我々は,4つのベンチマークデータセット上で8つの最先端LCMを用いて,迅速な一般化とロバスト性を評価する。
論文 参考訳(メタデータ) (2026-02-01T14:29:13Z) - Towards Comprehensive Benchmarking Infrastructure for LLMs In Software Engineering [19.584762693453893]
BEHELMは、ソフトウェア・シナリオ仕様とマルチメトリック評価を一体化する総合的なベンチマーク基盤である。
私たちのゴールは、ソフトウェア工学におけるLLMの公平で現実的で将来的な評価を可能にしながら、ベンチマークを構築するのに必要なオーバーヘッドを減らすことです。
論文 参考訳(メタデータ) (2026-01-28T21:55:10Z) - A Comprehensive Evaluation of LLM Reasoning: From Single-Model to Multi-Agent Paradigms [20.241519889633285]
大規模言語モデル(LLM)は、推論パラダイムが重要な役割を果たす推論システムとして、ますます多くデプロイされている。
我々は、直接単モデル生成、CoT拡張単モデル推論、代表MASなど、推論パラダイムを包括的かつ統一的に評価する。
MIMeBenchは、2つの基本的な未探索セマンティック機能をターゲットにした新しいオープンエンドベンチマークである。
論文 参考訳(メタデータ) (2026-01-19T17:23:45Z) - SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。
SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。
SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文 参考訳(メタデータ) (2025-11-07T18:01:32Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [82.0813150432867]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。
OpenUnlearningは、13のアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。
また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文 参考訳(メタデータ) (2025-06-14T20:16:37Z) - MALIBU Benchmark: Multi-Agent LLM Implicit Bias Uncovered [2.8692611791027893]
我々は,マルチエージェントシステムが社会的バイアスやステレオタイプを暗黙的に補強する程度を評価するために開発された新しいベンチマークであるMALIBUを提案する。
本研究は, LLM生成出力の偏差を定量化し, 偏差緩和が真の中立性よりも限界化されたペルソナを優先することを明らかにする。
論文 参考訳(メタデータ) (2025-04-10T19:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。