論文の概要: When Agents "Misremember" Collectively: Exploring the Mandela Effect in LLM-based Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2602.00428v1
- Date: Sat, 31 Jan 2026 00:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.182323
- Title: When Agents "Misremember" Collectively: Exploring the Mandela Effect in LLM-based Multi-Agent Systems
- Title(参考訳): エージェントが集合的に「ミスリーブ」する時--LDMに基づくマルチエージェントシステムにおけるマンデラ効果の探索
- Authors: Naen Xu, Hengyu An, Shuo Shi, Jinghuai Zhang, Chunyi Zhou, Changjiang Li, Tianyu Du, Zhihui Fu, Jun Wang, Shouling Ji,
- Abstract要約: マンデラ効果(英: Mandela effect)は、社会的影響と内在的な誤情報によって強化された虚偽の詳細の結果、集団的に過去の出来事を誤記憶する現象である。
この脆弱性は、マルチエージェントシステムにおけるメモリバイアスの理解を制限し、誤情報の潜在的な拡散に関する倫理的懸念を提起する。
我々は,この効果を緩和する戦略を提案し,即時防御とモデルレベルのアライメントに基づく防御を提案する。
- 参考スコア(独自算出の注目度): 45.33522933253109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have significantly enhanced the capabilities of collaborative multi-agent systems, enabling them to address complex challenges. However, within these multi-agent systems, the susceptibility of agents to collective cognitive biases remains an underexplored issue. A compelling example is the Mandela effect, a phenomenon where groups collectively misremember past events as a result of false details reinforced through social influence and internalized misinformation. This vulnerability limits our understanding of memory bias in multi-agent systems and raises ethical concerns about the potential spread of misinformation. In this paper, we conduct a comprehensive study on the Mandela effect in LLM-based multi-agent systems, focusing on its existence, causing factors, and mitigation strategies. We propose MANBENCH, a novel benchmark designed to evaluate agent behaviors across four common task types that are susceptible to the Mandela effect, using five interaction protocols that vary in agent roles and memory timescales. We evaluate agents powered by several LLMs on MANBENCH to quantify the Mandela effect and analyze how different factors affect it. Moreover, we propose strategies to mitigate this effect, including prompt-level defenses (e.g., cognitive anchoring and source scrutiny) and model-level alignment-based defense, achieving an average 74.40% reduction in the Mandela effect compared to the baseline. Our findings provide valuable insights for developing more resilient and ethically aligned collaborative multi-agent systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、協調型マルチエージェントシステムの能力を大幅に向上させ、複雑な問題に対処できるようにしている。
しかし、これらのマルチエージェントシステムでは、認知バイアスに対するエージェントの感受性は未解決の問題のままである。
マンデラ効果(英: Mandela effect)は、社会的影響と内在的誤報によって強化された虚偽の詳細の結果、集団で過去の出来事を誤記憶する現象である。
この脆弱性は、マルチエージェントシステムにおけるメモリバイアスの理解を制限し、誤情報の潜在的な拡散に関する倫理的懸念を提起する。
本稿では,LLMに基づくマルチエージェントシステムにおけるマンデラ効果の総合的研究を行い,その存在,要因,緩和戦略に着目した。
エージェントの役割やメモリタイムスケールが異なる5つのインタラクションプロトコルを用いて,マンデラ効果に影響を受けやすい4つの共通タスクタイプに対するエージェントの挙動を評価するための新しいベンチマークであるmanBENCHを提案する。
我々は,マンデラ効果の定量化と,その影響要因の解析を行うために,マンベンチ上での複数のLLMを用いたエージェントの評価を行った。
さらに,この効果を緩和する戦略として,即時防御(例えば,認知的アンカーとソースの精査)やモデルレベルのアライメントに基づく防御などを提案し,ベースラインと比較して平均74.40%のマンデラ効果の低減を実現している。
本研究は、よりレジリエンスで倫理的に整合した協調型マルチエージェントシステムの開発に有用な知見を提供する。
関連論文リスト
- Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - An Adversary-Resistant Multi-Agent LLM System via Credibility Scoring [8.779871128906787]
信頼性スコアリングに基づく汎用・対向抵抗型マルチエージェントLCMフレームワークを提案する。
私たちのシステムは、チームのアウトプットを集約するときに使用される信頼性スコアを関連付けています。
論文 参考訳(メタデータ) (2025-05-30T05:57:37Z) - Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness [50.29739337771454]
マルチエージェントの議論(MAD)アプローチは、モノリシックモデルに対する推論、堅牢性、多様な視点を提供する。
本稿では,MADを実験時間計算のスケーリング手法として概念化し,協調的な改良と多様な探索能力で区別する。
我々は、MADと強力なセルフエージェントテストタイムスケーリングベースラインを数学的推論と安全関連タスクに基づいて比較した総合的な実証的研究を行う。
論文 参考訳(メタデータ) (2025-05-29T01:02:55Z) - Herd Behavior: Investigating Peer Influence in LLM-based Multi-Agent Systems [7.140644659869317]
大規模言語モデル(LLM)に基づくマルチエージェントシステムにおけるピアの影響のダイナミクスについて検討する。
自己自信と他者に対する信頼感のギャップは,エージェントが適合する可能性に大きな影響を及ぼすことを示す。
群集行動の強さを調節する上で,ピア情報提示形式が重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2025-05-27T12:12:56Z) - How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior [65.70584076918679]
メモリは、大きな言語モデル(LLM)ベースのエージェントにおいて重要なコンポーネントである。
本稿では,メモリ管理の選択がLLMエージェントの行動,特に長期的パフォーマンスに与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-21T22:35:01Z) - HiddenBench: Assessing Collective Reasoning in Multi-Agent LLMs via Hidden Profile Tasks [12.203366267017737]
マルチエージェント LLM における集合的推論を評価するための最初のベンチマークである HiddenBench を紹介する。
ベンチマークを基礎として,このパラダイムをカスタムタスクで形式化し,GPT-4.1グループが分散知識の統合に失敗したことを示す。
次に、カスタムデザイン、先行研究、自動生成から引き出された65のタスクにまたがる完全なベンチマークを構築します。
論文 参考訳(メタデータ) (2025-05-15T19:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。