論文の概要: CONSCIENTIA: Can LLM Agents Learn to Strategize? Emergent Deception and Trust in a Multi-Agent NYC Simulation
- arxiv url: http://arxiv.org/abs/2604.09746v1
- Date: Fri, 10 Apr 2026 06:33:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.650595
- Title: CONSCIENTIA: Can LLM Agents Learn to Strategize? Emergent Deception and Trust in a Multi-Agent NYC Simulation
- Title(参考訳): CONSCIENTIA: LLMエージェントは戦略的に学習できるか? マルチエージェントNYCシミュレーションにおける創発的詐欺と信頼
- Authors: Aarush Sinha, Arion Das, Soumyadeep Nag, Charan Karnati, Shravani Nag, Chandra Vadhan Raj, Aman Chadha, Vinija Jain, Suranjana Trivedy, Amitava Das,
- Abstract要約: ニューヨーク市の簡易モデルに大規模なマルチエージェントシミュレーションを導入する。
ブルーエージェントは目的地に効率的に到達することを目指しており、レッドエージェントはビルボード重のルートに分岐しようと試みている。
隠れたアイデンティティは、ナビゲーションを社会的に介在させ、エージェントにいつ信用するか、あるいは欺くかを判断させる。
- 参考スコア(独自算出の注目度): 15.334072037636881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed as autonomous agents, understanding how strategic behavior emerges in multi-agent environments has become an important alignment challenge. We take a neutral empirical stance and construct a controlled environment in which strategic behavior can be directly observed and measured. We introduce a large-scale multi-agent simulation in a simplified model of New York City, where LLM-driven agents interact under opposing incentives. Blue agents aim to reach their destinations efficiently, while Red agents attempt to divert them toward billboard-heavy routes using persuasive language to maximize advertising revenue. Hidden identities make navigation socially mediated, forcing agents to decide when to trust or deceive. We study policy learning through an iterative simulation pipeline that updates agent policies across repeated interaction rounds using Kahneman-Tversky Optimization (KTO). Blue agents are optimized to reduce billboard exposure while preserving navigation efficiency, whereas Red agents adapt to exploit remaining weaknesses. Across iterations, the best Blue policy improves task success from 46.0% to 57.3%, although susceptibility remains high at 70.7%. Later policies exhibit stronger selective cooperation while preserving trajectory efficiency. However, a persistent safety-helpfulness trade-off remains: policies that better resist adversarial steering do not simultaneously maximize task completion. Overall, our results show that LLM agents can exhibit limited strategic behavior, including selective trust and deception, while remaining highly vulnerable to adversarial persuasion.
- Abstract(参考訳): 大規模言語モデル(LLM)が自律エージェントとしてますますデプロイされるにつれて、マルチエージェント環境での戦略的行動がどのように出現するかを理解することが重要なアライメント課題となっている。
我々は中立的な経験的姿勢をとり、戦略的行動を直接観察し測定できる制御された環境を構築する。
LLMを駆動するエージェントが反対のインセンティブの下で相互作用する、ニューヨーク市の簡易モデルにおいて、大規模なマルチエージェントシミュレーションを導入する。
ブルーエージェントは目的地に効率的に到達することを目指しており、レッドエージェントは広告収入を最大化するために説得力のある言語を使って、看板を多用するルートに分岐させようとしている。
隠れたアイデンティティは、ナビゲーションを社会的に介在させ、エージェントにいつ信用するか、あるいは欺くかを判断させる。
我々は,KTO (Kahneman-Tversky Optimization) を用いて,反復的シミュレーションパイプラインによるポリシー学習について検討した。
青色のエージェントはナビゲーション効率を保ちながら看板の露出を減らすように最適化されており、赤色のエージェントは残った弱点を利用するように適応している。
イテレーションを通じて、最高のブルーポリシーはタスクの成功率を46.0%から57.3%に改善するが、感受性は70.7%である。
後の政策は、軌道効率を維持しながらより強い選択的な協調を示す。
敵の操舵に抵抗する政策は同時にタスク完了を最大化しない。
以上の結果より, LLM エージェントは選択的信頼や騙しなど, 限られた戦略行動を示しつつも, 敵対的説得に対して脆弱であることが明らかとなった。
関連論文リスト
- Policy Disruption in Reinforcement Learning:Adversarial Attack with Large Language Models and Critical State Identification [8.292056374554162]
強化学習(Reinforcement Learning, RL)は、ロボット工学や自律運転などの分野で大きな成功を収めている。
既存のアプローチはしばしば環境やポリシーの変更に依存し、実用性を制限する。
本稿では,環境の変化を伴わずにターゲットポリシーを誘導し,準最適動作を出力する敵攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-07-24T05:52:06Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - EmoDebt: Bayesian-Optimized Emotional Intelligence for Strategic Agent-to-Agent Debt Recovery [65.30120701878582]
大規模言語モデル(LLM)エージェントは、負債収集のような感情に敏感なドメインの悪用に対して脆弱である。
EmoDebtは、ネゴシエーションにおける感情を表現するモデルの能力を、シーケンシャルな意思決定問題として再設計する感情インテリジェンスエンジンである。
EmoDebtは重要な戦略的堅牢性を実現し、非適応性と感情に依存しないベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-03-27T01:41:34Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Evil Geniuses: Delving into the Safety of LLM-based Agents [35.49857256840015]
大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。
本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
論文 参考訳(メタデータ) (2023-11-20T15:50:09Z) - Toward Evaluating Robustness of Reinforcement Learning with Adversarial Policy [32.1138935956272]
強化学習エージェントは、デプロイ中に回避攻撃を受けやすい。
本稿では,効率的なブラックボックス対応政策学習のための本質的なモチベーション付き適応政策(IMAP)を提案する。
論文 参考訳(メタデータ) (2023-05-04T07:24:12Z) - Influencing Towards Stable Multi-Agent Interactions [12.477674452685756]
多エージェント環境での学習は、相手やパートナーの行動の変化によってもたらされる非定常性のために困難である。
本稿では,他のエージェントの安定化戦略に積極的に影響を与えるアルゴリズムを提案する。
各種シミュレーション環境におけるタスク報酬の最大化における安定化の有効性を示す。
論文 参考訳(メタデータ) (2021-10-05T16:46:04Z) - Towards Learning Multi-agent Negotiations via Self-Play [2.28438857884398]
自己再生の反復的な手順が、徐々に多様な環境を創り出す方法を示す。
これは高度で堅牢なマルチエージェントポリシーの学習につながります。
合併操作の成功率は63%から98%に劇的に改善した。
論文 参考訳(メタデータ) (2020-01-28T08:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。