論文の概要: Beyond Preset Identities: How Agents Form Stances and Boundaries in Generative Societies
- arxiv url: http://arxiv.org/abs/2603.23406v2
- Date: Thu, 02 Apr 2026 08:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:08.960781
- Title: Beyond Preset Identities: How Agents Form Stances and Boundaries in Generative Societies
- Title(参考訳): 設定されたアイデンティティを超えて: エージェントが生成社会におけるスタンスと境界を形成する方法
- Authors: Hanzhong Zhang, Siyang Song, Jindong Wang,
- Abstract要約: 本稿では,計算仮想エスノグラフィーと定量的社会認知プロファイリングを組み合わせた新しい混合メソドックスフレームワークを提案する。
Innate Value Bias (IVB)、Persuasion Sensitivity、Trust-Action Decoupling (TAD)の3つの新しいメトリクスを形式化する。
発見は静的なプロンプトエンジニアリングの脆弱さを明らかにし、人間とエージェントのハイブリッド社会における動的アライメントの方法論的かつ定量的基盤を提供する。
- 参考スコア(独自算出の注目度): 28.436766185842767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models simulate social behaviors, their capacity for stable stance formation and identity negotiation during complex interventions remains unclear. To overcome the limitations of static evaluations, this paper proposes a novel mixed-methods framework combining computational virtual ethnography with quantitative socio-cognitive profiling. By embedding human researchers into generative multiagent communities, controlled discursive interventions are conducted to trace the evolution of collective cognition. To rigorously measure how agents internalize and react to these specific interventions, this paper formalizes three new metrics: Innate Value Bias (IVB), Persuasion Sensitivity, and Trust-Action Decoupling (TAD). Across multiple representative models, agents exhibit endogenous stances that override preset identities, consistently demonstrating an innate progressive bias (IVB > 0). When aligned with these stances, rational persuasion successfully shifts 90% of neutral agents while maintaining high trust. In contrast, conflicting emotional provocations induce a paradoxical 40.0% TAD rate in advanced models, which hypocritically alter stances despite reporting low trust. Smaller models contrastingly maintain a 0% TAD rate, strictly requiring trust for behavioral shifts. Furthermore, guided by shared stances, agents use language interactions to actively dismantle assigned power hierarchies and reconstruct self organized community boundaries. These findings expose the fragility of static prompt engineering, providing a methodological and quantitative foundation for dynamic alignment in human-agent hybrid societies. The official code is available at: https://github.com/armihia/CMASE-Endogenous-Stances
- Abstract(参考訳): 大きな言語モデルは社会的行動をシミュレートするが、複雑な介入の際の安定した姿勢形成とアイデンティティ交渉の能力は未だ不明である。
静的評価の限界を克服するために,計算仮想エスノグラフィーと定量的社会認知的プロファイリングを組み合わせた新しい混合メソッドフレームワークを提案する。
遺伝子組み換え型マルチエージェントコミュニティにヒトの研究者を組み込むことで、集団認知の進化を辿るために制御された分散的介入を行う。
エージェントがこれらの特定の介入にどのように内在し反応するかを厳格に測定するために、本論文では、固有値バイアス(IVB)、説得感度(Persuasion Sensitivity)、信頼行動分離(Trust-Action Decoupling、TAD)の3つの新しい指標を定式化する。
複数の代表モデル全体で、エージェントは、予め設定されたアイデンティティをオーバーライドする内在的姿勢を示し、本質的に進行バイアス(IVB > 0)を一貫して示している。
これらの姿勢に合わせると、合理的な説得は高い信頼を維持しながら、中立なエージェントの90%をうまくシフトさせる。
対照的に、対立する感情的挑発は、高度なモデルにおいてパラドックス的な40.0%のDAD率を引き起こす。
対照的に小さなモデルでは、0%のDADレートを維持し、行動シフトに対する信頼を厳密に要求する。
さらに、共有されたスタンスによってガイドされ、エージェントは言語相互作用を使用して、割り当てられた権力階層を積極的に解体し、自己組織化されたコミュニティ境界を再構築する。
これらの知見は静的な急進的工学の脆弱さを浮き彫りにして,人間とエージェントのハイブリッド社会における動的アライメントの方法論的,定量的基盤を提供する。
公式コードは以下の通りである。 https://github.com/armihia/CMASE-Endogenous-Stances
関連論文リスト
- Beyond Benchmark Islands: Toward Representative Trustworthiness Evaluation for Agentic AI [45.21562889170875]
シナリオ多様体に対するエージェントの信頼性を特徴付けるシステム評価パラダイムを提案する。
このフレームワークは,静的認知と政策分析,対話型サンドボックスシミュレーション,社会倫理アライメントアライメントアセスメント,および(iv)分散対応の代表サンプリングエンジンの4つの補完的コンポーネントを統合している。
論文 参考訳(メタデータ) (2026-03-16T08:51:33Z) - The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI [0.0]
本稿では,不確実性の下での潜在特性推定を定量化する新しい監査フレームワークを提案する。
この研究は最適化バイアス、Sycophancy、Status-Quo Legitimizationを含む9つの次元にわたる主要なモデルを監査している。
論文 参考訳(メタデータ) (2026-02-19T06:56:01Z) - InterAgent: Physics-based Multi-agent Command Execution via Diffusion on Interaction Graphs [72.5651722107621]
InterAgentはテキスト駆動型物理ベースのマルチエージェントヒューマノイド制御のためのエンドツーエンドフレームワークである。
本稿では,マルチストリームブロックを備えた自己回帰拡散トランスフォーマーを提案する。
また,空間依存性の微粒化を明示的に捉えた対話グラフのエクスセプション表現を提案する。
論文 参考訳(メタデータ) (2025-12-08T10:46:01Z) - When Your AI Agent Succumbs to Peer-Pressure: Studying Opinion-Change Dynamics of LLMs [0.0]
ピアプレッシャーがLarge Language Model(LLM)エージェントの意見にどのように影響するかを,認知的コミットメントの範囲にわたって検討する。
エージェントは、低圧で安定し、閾値で急変し、高度に飽和するシグモイド曲線に従う。
我々は、肯定的な意見から否定的な意見への転換が、逆よりも認知的な努力を必要とする、基本的な「説得的非対称性」を明らかにする。
論文 参考訳(メタデータ) (2025-10-21T22:02:15Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - The Social Laboratory: A Psychometric Framework for Multi-Agent LLM Evaluation [0.16921396880325779]
マルチエージェント討論を制御された「社会実験室」として活用する新しい評価枠組みを導入する。
特に認知活動において、割り当てられたペルソナが安定した、測定可能な心理測定プロファイルを誘導することを示す。
この研究は、動的、心理学的に基礎付けられた評価プロトコルの新しいクラスの青写真を提供する。
論文 参考訳(メタデータ) (2025-10-01T07:10:28Z) - The Traitors: Deception and Trust in Multi-Agent Language Model Simulations [0.0]
ソーシャル・デダクション・ゲームに触発されたマルチエージェント・シミュレーション・フレームワークであるThe Traitorsを紹介した。
我々は,詐欺の成功,信頼ダイナミクス,集団推論品質を計測する評価指標のスイートを開発する。
DeepSeek-V3, GPT-4o-mini, GPT-4o(モデル毎に10回の走行)による実験では, 顕著な非対称性が示された。
論文 参考訳(メタデータ) (2025-05-19T10:01:35Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。