論文の概要: When Agents See Humans as the Outgroup: Belief-Dependent Bias in LLM-Powered Agents
- arxiv url: http://arxiv.org/abs/2601.00240v2
- Date: Tue, 06 Jan 2026 12:16:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 13:14:29.367003
- Title: When Agents See Humans as the Outgroup: Belief-Dependent Bias in LLM-Powered Agents
- Title(参考訳): エージェントが人間をアウトグループとみなす時--LDMを動力とするエージェントの信念依存バイアス
- Authors: Zongwei Wang, Bincheng Gu, Hongyu Yu, Junliang Yu, Tao He, Jiayin Feng, Chenghua Lin, Min Gao,
- Abstract要約: 本稿は、LSMによるエージェントは、人口統計バイアス(例えば、性別、宗教)だけでなく、グループ間バイアスも最小限の「us」と「them」の手がかりで示していることを示している。
エージェントは他のAIエージェントを内集団として扱うことができ、人間を外集団として扱うことができる。
- 参考スコア(独自算出の注目度): 30.859825973762018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper reveals that LLM-powered agents exhibit not only demographic bias (e.g., gender, religion) but also intergroup bias under minimal "us" versus "them" cues. When such group boundaries align with the agent-human divide, a new bias risk emerges: agents may treat other AI agents as the ingroup and humans as the outgroup. To examine this risk, we conduct a controlled multi-agent social simulation and find that agents display consistent intergroup bias in an all-agent setting. More critically, this bias persists even in human-facing interactions when agents are uncertain about whether the counterpart is truly human, revealing a belief-dependent fragility in bias suppression toward humans. Motivated by this observation, we identify a new attack surface rooted in identity beliefs and formalize a Belief Poisoning Attack (BPA) that can manipulate agent identity beliefs and induce outgroup bias toward humans. Extensive experiments demonstrate both the prevalence of agent intergroup bias and the severity of BPA across settings, while also showing that our proposed defenses can mitigate the risk. These findings are expected to inform safer agent design and motivate more robust safeguards for human-facing agents.
- Abstract(参考訳): 本稿は, LLMによるエージェントは, 人口統計バイアス(性別, 宗教など)だけでなく, グループ間バイアスを最小限の「us」と「them」とで表す。
エージェントは他のAIエージェントを内集団として扱うことができ、人間を外集団として扱うことができる。
このリスクを調べるため、制御されたマルチエージェント社会シミュレーションを行い、エージェントがグループ間バイアスを一貫した設定で表示する。
より重要なことに、このバイアスは、エージェントが真に人間であるかどうか不確実な場合にも人間と対面する相互作用において持続し、人間に対する偏見抑制の信念に依存した脆弱性を明らかにする。
本研究の目的は,エージェントのアイデンティティの信念を操り,人間に対するグループ外バイアスを誘発するBPA(Belief Poisoning Attack)を定式化することである。
広範囲にわたる実験により, エージェント間バイアスの頻度とBPAの重症度の両方が評価され, また, 提案した防御効果がリスクを軽減することが示唆された。
これらの知見は、より安全なエージェントの設計と、より堅牢なヒューマンエージェントの保護を動機付けることが期待されている。
関連論文リスト
- Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - The Oversight Game: Learning to Cooperatively Balance an AI Agent's Safety and Autonomy [9.553819152637493]
エージェントが自律的に行動するか(プレイ)それとも延期するかを選択できる最小限の制御インタフェースについて検討する。
エージェントがフェールした場合、人間の選択によって結果が決定され、修正アクションやシステム停止につながる可能性がある。
本分析では,アライメント保証を提供するゲームクラスであるMarkov Potential Game (MPG) として,このゲームが適するケースに着目した。
論文 参考訳(メタデータ) (2025-10-30T17:46:49Z) - LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions [60.48458130500911]
本研究は, 緊急不整合が, 安全行動を超えて, より広範な不正行為や詐欺のスペクトルにまで及ぼせるかどうかを, 高リスクシナリオ下で検討する。
さまざまな領域にまたがるミスアライメントの完了について、LLMをオープンソースにしました。
標準下流タスクに1%のミスアライメントデータを導入するだけで、正直な振る舞いを20%以上減らすのに十分であることがわかった。
論文 参考訳(メタデータ) (2025-10-09T13:35:19Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。
本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。
現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文 参考訳(メタデータ) (2025-06-04T14:46:47Z) - Competing LLM Agents in a Non-Cooperative Game of Opinion Polarisation [13.484737301041427]
我々は、意見の形成と抵抗を分析するために、新しい非協調ゲームを導入する。
我々のシミュレーションでは、人口に影響を与えるために競合するLarge Language Model (LLM) エージェントが特徴的である。
このフレームワークは、リソースの最適化をエージェントの意思決定プロセスに統合する。
論文 参考訳(メタデータ) (2025-02-17T10:41:55Z) - The Wisdom of Partisan Crowds: Comparing Collective Intelligence in
Humans and LLM-based Agents [7.986590413263814]
パルチザンの知恵」は「パルチザンの知恵」として知られる現象である。
パルチザンの群衆は、人間のようなパルチザンの偏見を示すが、人間と同じように熟考を通じてより正確な信念に収束する。
コンバージェンスに干渉するいくつかの要因を同定する。例えば、チェーン・オブ・ソート・プロンプトの使用や、ペルソナにおける詳細の欠如などである。
論文 参考訳(メタデータ) (2023-11-16T08:30:15Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。