論文の概要: Aligned Agents, Biased Swarm: Measuring Bias Amplification in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2604.08963v2
- Date: Mon, 13 Apr 2026 05:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 14:47:45.81159
- Title: Aligned Agents, Biased Swarm: Measuring Bias Amplification in Multi-Agent Systems
- Title(参考訳): 配向剤, バイアススワム:マルチエージェントシステムにおけるバイアス増幅の測定
- Authors: Keyu Li, Jin Gao, Dequan Wang,
- Abstract要約: 現実世界のマルチエージェントシステムは、完全に分析するには複雑すぎる。
基礎的なMASトポロジとフィードバックループが偏見に与える影響について,基礎的研究を行った。
高度な複雑性を排除して、Swarmのダイナミクスを研究することで、構造的複雑性は倫理的堅牢性を保証するものではない、重要なベースラインを確立します。
- 参考スコア(独自算出の注目度): 27.694287638709643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multi-Agent Systems (MAS) are increasingly deployed for complex workflows, their emergent properties-particularly the accumulation of bias-remain poorly understood. Because real-world MAS are too complex to analyze entirely, evaluating their ethical robustness requires first isolating their foundational mechanics. In this work, we conduct a baseline empirical study investigating how basic MAS topologies and feedback loops influence prejudice. Contrary to the assumption that multi-agent collaboration naturally dilutes bias, we hypothesize that structured workflows act as echo chambers, amplifying minor stochastic biases into systemic polarization. To evaluate this, we introduce Discrim-Eval-Open, an open-ended benchmark that bypasses individual model neutrality through forced comparative judgments across demographic groups. Analyzing bias cascades across various structures reveals that architectural sophistication frequently exacerbates bias rather than mitigating it. We observe systemic amplification even when isolated agents operate neutrally, and identify a 'Trigger Vulnerability' where injecting purely objective context drastically accelerates polarization. By stripping away advanced swarm complexity to study foundational dynamics, we establish a crucial baseline: structural complexity does not guarantee ethical robustness. Our code is available at https://github.com/weizhihao1/MAS-Bias.
- Abstract(参考訳): マルチエージェントシステム(Multi-Agent Systems、MAS)は複雑なワークフローにますますデプロイされているが、その創発的特性、特にバイアスの蓄積は理解されていない。
現実世界のMASは完全に分析するには複雑すぎるため、倫理的堅牢性を評価するには、まず基礎力学を分離する必要がある。
本研究では,基礎的なMASトポロジとフィードバックループが偏見に与える影響について,基礎的研究を行う。
マルチエージェントコラボレーションがバイアスを自然に希釈する仮定とは対照的に、構造化ワークフローはエコーチャンバーとして機能し、小さな確率バイアスをシステム偏光に増幅する、という仮説を立てる。
これを評価するために、人口集団間での強制的な比較判断を通じて、個々のモデル中立性を回避できるオープンエンドベンチマークであるDisclrim-Eval-Openを導入する。
様々な構造のバイアスカスケードを分析することで、アーキテクチャの洗練がバイアスを緩和するよりも、バイアスを悪化させることが多いことが分かる。
分離されたエージェントが中立に動作しても,システム増幅を観察し,純粋に客観的なコンテキストを注入することで偏光が劇的に加速する「トリガー脆弱性」を同定する。
高度なSwarm複雑性を除去して基礎力学を研究することで、構造的複雑性は倫理的堅牢性を保証するものではないという決定的なベースラインを確立します。
私たちのコードはhttps://github.com/weizhihao1/MAS-Bias.comで利用可能です。
関連論文リスト
- From Intent to Evidence: A Categorical Approach for Structural Evaluation of Deep Research Agents [25.080554451314683]
深層研究エージェント(DRA)は、複雑な情報合成のための有望なパラダイムとして登場した。
我々は、DRAの挙動を圏論のレンズを通して形式化し、構造保存マップの合成として深層研究ワークフローをモデル化する。
エージェントを4つの解釈可能な軸に沿ってストレステストするために設計された296の質問を持つメカニズム認識ベンチマークを導入する。
論文 参考訳(メタデータ) (2026-03-26T11:37:26Z) - C2PO: Diagnosing and Disentangling Bias Shortcuts in LLMs [21.78910192035563]
Causal-Contrastive Preference Optimization (C2PO) は、これらの相関を発見して抑制することによって、これらの特定の障害に対処するように設計されている。
C2POは、頑健な一般的な推論能力を保ちながら、ステレオタイプおよび構造バイアスを効果的に緩和する。
論文 参考訳(メタデータ) (2025-12-29T12:49:32Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Who is in the Spotlight: The Hidden Bias Undermining Multimodal Retrieval-Augmented Generation [39.545788636148025]
本稿では,マルチモーダルRAGシステムにおける位置バイアスの総合的研究について述べる。
以上の結果から,マルチモーダル相互作用によって位置バイアスが増大することが示唆された。
これらの知見は、より信頼性が高く公平な世代システムを構築するための証拠の整理やデバイアスの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-30T06:48:02Z) - Unmasking Conversational Bias in AI Multiagent Systems [1.0705399532413618]
生成モデルを含むマルチエージェントシステムで生じる可能性のあるバイアスは、未研究のままである。
本稿では,対話型大規模言語モデルのマルチエージェントシステムにおけるバイアスの定量化を目的としたフレームワークを提案する。
エコーチャンバー実験で観測されたバイアスは、現在最先端のバイアス検出法で検出されていない。
論文 参考訳(メタデータ) (2025-01-24T09:10:02Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。