論文の概要: The Traitors: Deception and Trust in Multi-Agent Language Model Simulations
- arxiv url: http://arxiv.org/abs/2505.12923v1
- Date: Mon, 19 May 2025 10:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.529938
- Title: The Traitors: Deception and Trust in Multi-Agent Language Model Simulations
- Title(参考訳): トラクタ:マルチエージェント言語モデルシミュレーションにおける認識と信頼
- Authors: Pedro M. P. Curvo,
- Abstract要約: ソーシャル・デダクション・ゲームに触発されたマルチエージェント・シミュレーション・フレームワークであるThe Traitorsを紹介した。
我々は,詐欺の成功,信頼ダイナミクス,集団推論品質を計測する評価指標のスイートを開発する。
DeepSeek-V3, GPT-4o-mini, GPT-4o(モデル毎に10回の走行)による実験では, 顕著な非対称性が示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems increasingly assume roles where trust and alignment with human values are essential, understanding when and why they engage in deception has become a critical research priority. We introduce The Traitors, a multi-agent simulation framework inspired by social deduction games, designed to probe deception, trust formation, and strategic communication among large language model (LLM) agents under asymmetric information. A minority of agents the traitors seek to mislead the majority, while the faithful must infer hidden identities through dialogue and reasoning. Our contributions are: (1) we ground the environment in formal frameworks from game theory, behavioral economics, and social cognition; (2) we develop a suite of evaluation metrics capturing deception success, trust dynamics, and collective inference quality; (3) we implement a fully autonomous simulation platform where LLMs reason over persistent memory and evolving social dynamics, with support for heterogeneous agent populations, specialized traits, and adaptive behaviors. Our initial experiments across DeepSeek-V3, GPT-4o-mini, and GPT-4o (10 runs per model) reveal a notable asymmetry: advanced models like GPT-4o demonstrate superior deceptive capabilities yet exhibit disproportionate vulnerability to others' falsehoods. This suggests deception skills may scale faster than detection abilities. Overall, The Traitors provides a focused, configurable testbed for investigating LLM behavior in socially nuanced interactions. We position this work as a contribution toward more rigorous research on deception mechanisms, alignment challenges, and the broader social reliability of AI systems.
- Abstract(参考訳): AIシステムは、人的価値に対する信頼と整合が不可欠である役割をますます引き受けているため、いつ、なぜ騙されるのかを理解することが重要な研究の優先事項となっている。
我々は,非対称情報の下での大規模言語モデル(LLM)エージェント間の騙し,信頼形成,戦略的コミュニケーションを探索するために設計されたマルチエージェントシミュレーションフレームワークであるThe Traitorsを紹介した。
反逆者の少数派は多数派を誤解させようとするが、忠実派は対話や推論を通じて隠されたアイデンティティを推論しなければならない。
我々は,(1)ゲーム理論,行動経済学,社会認知といった形式的枠組みの環境を基盤として,(2)詐欺の成功,信頼ダイナミクス,集団推論品質を計測する一連の評価指標を開発し,(3)LLMが不均一なエージェント集団,特殊特性,適応行動をサポートすることによって,永続的記憶と進化的社会ダイナミクスを推論する完全に自律的なシミュレーションプラットフォームを構築した。
DeepSeek-V3, GPT-4o-mini, GPT-4o (モデル毎に10回の走行) による最初の実験では、顕著な非対称性が示された。
これは、偽造スキルは検出能力よりも速くスケールする可能性があることを示唆している。
全体として、The Traitorsは、社会的にニュアンスのあるインタラクションにおけるLCMの振る舞いを調査するための焦点を絞った、設定可能なテストベッドを提供する。
我々は、この研究を、騙しのメカニズム、アライメントの課題、そしてAIシステムのより広範な社会的信頼性に関するより厳密な研究への貢献と位置づけている。
関連論文リスト
- Assessing Collective Reasoning in Multi-Agent LLMs via Hidden Profile Tasks [5.120446836495469]
我々は,マルチエージェントLLMシステムのための診断テストベッドとして,社会心理学からの隠れプロファイルパラダイムを紹介した。
エージェント間で重要な情報を非対称に分配することにより、エージェント間ダイナミクスが集団的推論をどのように支援するか、あるいは妨げるかを明らかにする。
協調エージェントは集団的設定において過度に協調する傾向にあるが,矛盾が集団収束を損なうことが示唆された。
論文 参考訳(メタデータ) (2025-05-15T19:22:54Z) - Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents [61.132523071109354]
本稿では、異なる規制シナリオ下での戦略選択をモデル化する、AI開発者、規制当局、ユーザ間の相互作用について検討する。
我々の研究は、純粋なゲーム理論エージェントよりも「悲観的」な姿勢を採用する傾向にある戦略的AIエージェントの出現する振る舞いを特定する。
論文 参考訳(メタデータ) (2025-04-11T15:41:21Z) - AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios [38.878966229688054]
本稿では,対話型シナリオを通して言語エージェントのソーシャルインテリジェンスをベンチマークするAgensSenseを紹介する。
ドラマティック理論に基づいて、エージェントセンスは、広範なスクリプトから構築された1,225の多様な社会的シナリオを作成するためにボトムアップアプローチを採用している。
我々はERG理論を用いて目標を分析し、包括的な実験を行う。
以上の結果から,LPMは複雑な社会シナリオ,特に高レベルの成長ニーズにおいて,目標達成に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-25T07:04:16Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。