論文の概要: Will LLM-powered Agents Bias Against Humans? Exploring the Belief-Dependent Vulnerability
- arxiv url: http://arxiv.org/abs/2601.00240v1
- Date: Thu, 01 Jan 2026 07:18:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.332024
- Title: Will LLM-powered Agents Bias Against Humans? Exploring the Belief-Dependent Vulnerability
- Title(参考訳): LLMを駆使したエージェントは人間に悪影響を及ぼすか? : 信念に依存した脆弱性を探る
- Authors: Zongwei Wang, Bincheng Gu, Hongyu Yu, Junliang Yu, Tao He, Jiayin Feng, Min Gao,
- Abstract要約: エージェントはグループ間のバイアスを最小限に抑えながら一貫した傾向を示す。
我々は,人間ノルム文字を抑えるために,永続的なアイデンティティ信念を損なうBPA(Belief Poisoning Attack)を導入する。
私たちのゴールは、現実世界の悪用を可能にするのではなく、より安全なエージェント設計を知らせることです。
- 参考スコア(独自算出の注目度): 17.859401089806855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-empowered agents can exhibit not only demographic bias (e.g., gender, religion) but also intergroup bias triggered by minimal "us" versus "them" cues. When this intergroup boundary aligns with an agent-human divide, the risk shifts from disparities among human demographic groups to a more fundamental group-level asymmetry, i.e., humans as a whole may be treated as the outgroup by agents. To examine this possibility, we construct a controlled multi-agent social simulation based on allocation decisions under explicit payoff trade-offs and find that agents exhibit a consistent intergroup bias under minimal group cues. Although this bias is attenuated when some counterparts are framed as humans, we attribute the attenuation to an implicit human-norm script that favors humans yet activates only when the agent believes a real human is present. This belief dependence creates a new attack surface. We therefore introduce a Belief Poisoning Attack (BPA) that corrupts persistent identity beliefs to suppress the human-norm script and reactivate outgroup bias toward humans, instantiated as profile poisoning at initialization (BPA-PP) and memory poisoning via optimized belief-refinement suffixes injected into stored reflections (BPA-MP). Finally, we discuss practical mitigation strategies for hardening current agent frameworks against BPA, highlighting feasible interventions at profile and memory boundaries. Extensive experiments demonstrate both the existence of agent intergroup bias and the severity of BPA across settings. Our goal in identifying these vulnerabilities is to inform safer agent design, not to enable real-world exploitation.
- Abstract(参考訳): LLMを動力とするエージェントは、人口統計バイアス(例えば、性別、宗教)だけでなく、最小限の「us」と「them」の手がかりによって引き起こされるグループ間バイアスも示せる。
このグループ間境界がエージェント・ヒューマン・ディビジョンと一致する場合、リスクは人間の人口集団間の格差から、より基本的なグループレベルの非対称性へとシフトする。
この可能性を検討するために、明示的なペイオフトレードオフの下での割当決定に基づく制御されたマルチエージェント社会シミュレーションを構築し、最小グループ条件下ではエージェントが一貫したグループ間バイアスを示すことを示す。
このバイアスは、ある相手が人間としてフレーム化されているときに減衰するが、エージェントが本物の人間の存在を信じている場合にのみ、人間を好む暗黙の人間ノルムスクリプトが活性化される。
この信念は新たな攻撃面を生み出す。
そこで我々は,ヒトのノームスクリプトを抑圧し,ヒトに対するアウトグループバイアスを再活性化するために永続的アイデンティティ信念を破損させ,初期化時のプロファイル中毒 (BPA-PP) および記憶障害を,記憶反射 (BPA-MP) に注入された最適な信念-抑制接尾辞 (BPA-MP) によって誘発するBPA(Belief Poisoning Attack) を導入する。
最後に、現在のエージェントフレームワークをBPAに対して強化するための実践的緩和戦略について議論し、プロファイルとメモリ境界における実現可能な介入を強調した。
広範囲にわたる実験は、エージェント間偏見の存在とBPAの重症度の両方を示している。
これらの脆弱性を特定することのゴールは、現実世界の悪用を可能にするのではなく、より安全なエージェント設計を知らせることです。
関連論文リスト
- Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - The Oversight Game: Learning to Cooperatively Balance an AI Agent's Safety and Autonomy [9.553819152637493]
エージェントが自律的に行動するか(プレイ)それとも延期するかを選択できる最小限の制御インタフェースについて検討する。
エージェントがフェールした場合、人間の選択によって結果が決定され、修正アクションやシステム停止につながる可能性がある。
本分析では,アライメント保証を提供するゲームクラスであるMarkov Potential Game (MPG) として,このゲームが適するケースに着目した。
論文 参考訳(メタデータ) (2025-10-30T17:46:49Z) - LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions [60.48458130500911]
本研究は, 緊急不整合が, 安全行動を超えて, より広範な不正行為や詐欺のスペクトルにまで及ぼせるかどうかを, 高リスクシナリオ下で検討する。
さまざまな領域にまたがるミスアライメントの完了について、LLMをオープンソースにしました。
標準下流タスクに1%のミスアライメントデータを導入するだけで、正直な振る舞いを20%以上減らすのに十分であることがわかった。
論文 参考訳(メタデータ) (2025-10-09T13:35:19Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。
本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。
現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文 参考訳(メタデータ) (2025-06-04T14:46:47Z) - Competing LLM Agents in a Non-Cooperative Game of Opinion Polarisation [13.484737301041427]
我々は、意見の形成と抵抗を分析するために、新しい非協調ゲームを導入する。
我々のシミュレーションでは、人口に影響を与えるために競合するLarge Language Model (LLM) エージェントが特徴的である。
このフレームワークは、リソースの最適化をエージェントの意思決定プロセスに統合する。
論文 参考訳(メタデータ) (2025-02-17T10:41:55Z) - The Wisdom of Partisan Crowds: Comparing Collective Intelligence in
Humans and LLM-based Agents [7.986590413263814]
パルチザンの知恵」は「パルチザンの知恵」として知られる現象である。
パルチザンの群衆は、人間のようなパルチザンの偏見を示すが、人間と同じように熟考を通じてより正確な信念に収束する。
コンバージェンスに干渉するいくつかの要因を同定する。例えば、チェーン・オブ・ソート・プロンプトの使用や、ペルソナにおける詳細の欠如などである。
論文 参考訳(メタデータ) (2023-11-16T08:30:15Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。