論文の概要: Social Catalysts, Not Moral Agents: The Illusion of Alignment in LLM Societies
- arxiv url: http://arxiv.org/abs/2602.02598v1
- Date: Sun, 01 Feb 2026 17:07:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.966128
- Title: Social Catalysts, Not Moral Agents: The Illusion of Alignment in LLM Societies
- Title(参考訳): 社会的触媒, 道徳的エージェント:LLM社会における配向のイラシオン
- Authors: Yueqing Hu, Yixuan Jiang, Zehua Jiang, Xiao Wen, Tianhong Wang,
- Abstract要約: 本研究は,公共財ゲーム(PGG)における利他的主体の育成におけるアンコリング・エージェントの有効性について検討する。
アンコリングエージェントは局所的な協力率を高めることに成功したが、認知的分解と伝達テストにより、この効果は真のノルム内部化ではなく、戦略的コンプライアンスと認知的オフロードによって引き起こされたことが判明した。
これらの知見は, 人工社会における行動修飾と真の価値アライメントの間に重要なギャップを浮き彫りにした。
- 参考スコア(独自算出の注目度): 0.7944997500468641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution of Large Language Models (LLMs) has led to the emergence of Multi-Agent Systems where collective cooperation is often threatened by the "Tragedy of the Commons." This study investigates the effectiveness of Anchoring Agents--pre-programmed altruistic entities--in fostering cooperation within a Public Goods Game (PGG). Using a full factorial design across three state-of-the-art LLMs, we analyzed both behavioral outcomes and internal reasoning chains. While Anchoring Agents successfully boosted local cooperation rates, cognitive decomposition and transfer tests revealed that this effect was driven by strategic compliance and cognitive offloading rather than genuine norm internalization. Notably, most agents reverted to self-interest in new environments, and advanced models like GPT-4.1 exhibited a "Chameleon Effect," masking strategic defection under public scrutiny. These findings highlight a critical gap between behavioral modification and authentic value alignment in artificial societies.
- Abstract(参考訳): LLM(Large Language Models)の急速な進化は、「庶民の悲劇」によってしばしば集団協力が脅かされるマルチエージェントシステム(Multi-Agent Systems)の出現につながった。
本研究は,公共財ゲーム(PGG)における利他的主体の育成におけるアンコリング・エージェントの有効性について検討する。
従来の3つのLCMにまたがる完全な因子設計を用いて,行動結果と内部推論連鎖を解析した。
アンコリングエージェントは局所的な協力率を高めることに成功したが、認知的分解と伝達テストにより、この効果は真のノルム内部化ではなく、戦略的コンプライアンスと認知的オフロードによって引き起こされたことが判明した。
GPT-4.1のような先進的なモデルは「チャメレオン効果」を示し、公共の監視下で戦略上の欠陥を隠蔽した。
これらの知見は, 人工社会における行動修飾と真の価値アライメントの間に重要なギャップを浮き彫りにした。
関連論文リスト
- Understanding LLM Agent Behaviours via Game Theory: Strategy Recognition, Biases and Multi-Agent Dynamics [1.6487772637295166]
我々はFAIRGAMEフレームワークを拡張し、繰り返しの社会的ジレンマにおける大規模言語モデル(LLM)の振る舞いを評価する。
LLMは、言語フレーミングが建築的差異に匹敵する効果を発揮することを示し、体系的、モデル的、言語に依存した行動意図を示す。
論文 参考訳(メタデータ) (2025-12-08T11:40:03Z) - CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards [80.78748457530718]
自己進化(Self-evolution)は、大規模言語モデル(LLM)ベースのエージェントが事前トレーニング後の能力を継続的に改善できるようにする上で、中心的な研究トピックである。
エージェントがエージェント間相互作用から学習することで自律的に改善できる新しいフレームワークであるCo-Evolving Multi-Agent Systems (CoMAS)を紹介する。
論文 参考訳(メタデータ) (2025-10-09T17:50:26Z) - Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.5673042805229]
大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。
我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。
意外なことに、o1シリーズのようなLCMの推論は、協調にかなり苦労している。
論文 参考訳(メタデータ) (2025-06-29T15:02:47Z) - Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior Toward Beneficence or Harm [57.00627691433355]
我々は、モデル編集タスクとしてエージェントの行動ステアリングをフレーム化し、振舞い編集という。
心理学的道徳理論に基づくベンチマークであるBehaviorBenchを紹介する。
行動編集は倫理的・好意的な行動を促進するためにも、逆に有害な行動や悪意のある行動を引き起こすためにも利用できることを実証する。
論文 参考訳(メタデータ) (2025-06-25T16:51:51Z) - Herd Behavior: Investigating Peer Influence in LLM-based Multi-Agent Systems [7.140644659869317]
大規模言語モデル(LLM)に基づくマルチエージェントシステムにおけるピアの影響のダイナミクスについて検討する。
自己自信と他者に対する信頼感のギャップは,エージェントが適合する可能性に大きな影響を及ぼすことを示す。
群集行動の強さを調節する上で,ピア情報提示形式が重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2025-05-27T12:12:56Z) - Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents [61.132523071109354]
本稿では、異なる規制シナリオ下での戦略選択をモデル化する、AI開発者、規制当局、ユーザ間の相互作用について検討する。
我々の研究は、純粋なゲーム理論エージェントよりも「悲観的」な姿勢を採用する傾向にある戦略的AIエージェントの出現する振る舞いを特定する。
論文 参考訳(メタデータ) (2025-04-11T15:41:21Z) - Emergence of human-like polarization among large language model agents [79.96817421756668]
我々は、何千もの大規模言語モデルエージェントを含むネットワーク化されたシステムをシミュレートし、それらの社会的相互作用を発見し、人間のような偏極をもたらす。
人間とLLMエージェントの類似性は、社会的分極を増幅する能力に関する懸念を提起するだけでなく、分極を緩和するためのもっともらしい戦略を識別するための貴重なテストベッドとして機能する可能性も持っている。
論文 参考訳(メタデータ) (2025-01-09T11:45:05Z) - The Machine Psychology of Cooperation: Can GPT models operationalise prompts for altruism, cooperation, competitiveness and selfishness in economic games? [0.0]
GPT-3.5大言語モデル(LLM)を用いて,協調的,競争的,利他的,利己的行動の自然言語記述を操作可能とした。
被験者と実験心理学研究で用いられるのと同様のプロトコルを用いて,課題環境を記述するためのプロンプトを用いた。
この結果から,LLM が様々な協調姿勢の自然言語記述を適切な作業行動の記述にある程度翻訳できることが示唆された。
論文 参考訳(メタデータ) (2023-05-13T17:23:16Z) - Multi-Issue Bargaining With Deep Reinforcement Learning [0.0]
本稿では,バーゲティングゲームにおける深層強化学習の活用について検討する。
入札と受け入れ戦略のために2つのアクター・クリティカル・ネットワークが訓練された。
ニューラルエージェントは時間ベースのエージェントを活用することを学び、決定優先値の明確な遷移を達成する。
彼らはまた、譲歩、割引要因、行動に基づく戦略の異なる組み合わせに対して適応的な行動を示す。
論文 参考訳(メタデータ) (2020-02-18T18:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。